De audio a texto: IA, protección de datos y asincronía.

En la era digital, la confidencialidad de nuestros datos se ha convertido en un desafío esencial.
Por eso desarrollamos servicios digitales éticos y sostenibles, diseñados para proteger sus datos y perdurar en el tiempo.

Recientemente, hemos asumido un desafío apasionante: crear una solución con IA que preserve la soberanía tecnológica y la privacidad de los usuarios.

El proyecto

Desarrollar un servicio de transcripción de audio a texto alternativo a los softwares tradicionales.

En lugar de transferir archivos de audio sensibles a servidores externos, ofrecemos una arquitectura descentralizada que permite a cada organización desplegar la herramienta directamente en su infraestructura existente.

El objetivo es doble:

Respetar la privacidad de los datos (ya sea por una situación reglamentaria, por la sensibilidad de los datos o por una estrategia o convicción de la organización) y por lo tanto, una autonomía incrementada.

Promover un enfoque de eco-diseño, reutilizando el equipamiento informático existente, lo que evita el sobreconsumo de recursos y la obsolescencia programada.

Las aplicaciones concretas de este caso de uso son múltiples:

Efectuar transcripciones de reuniones, entrevistas o podcast
Guardar un registro
Evitar la transcripción manual

Requisitos del servicio de transcripción

Como usuaria o usuario quiero obtener una transcripción escrita de un archivo de audio.

El sistema debe poder ser usado por más de una persona al interior de la organización.

No es necesario que la transcripción del audio se haga inmediatamente.

El sistema debe poder funcionar en el servidor existente de la empresa y no representar ningún costo adicional luego de haber sido creado.

El servicio

Los requisitos fueron traducidos en el siguiente diseño e implementación:

Cada persona de la empresa debe poder conectarse a una sitio web donde puede indicar el archivo que quiere transcribir y su dirección de correo para recibir la transcripción.
El archivo es guardado en el servidor.
Durante la noche, cuando el servidor de la empresa es menos usado, un proceso de batch se inicia. Una transcripción es creada para cada archivo que fue subido durante el día, usando un módulo de inteligencia artificial optimizado para las transcripciones,
Una vez que la transcripción esté lista, el servidor envía un mail con la transcripción a la persona.

Diagrama de componentes de la aplicación:

C'est un diagramme présentant la manière dont fonctionne le programme.

Metodología

Para el desarrollo de esta aplicación, utilizamos una metodología ágil e incorporamos el marco teórico del GREENSOFT model.
De esta forma, creamos un Sustainability Journal o registro de sustentabilidad, donde anotamos cada decisión y consecuencia respecto a la sustentabilidad del producto.

Esta forma de trabajar permite:

Asimilar preocupaciones y requerimientos de sostenibilidad al proceso de desarrollo, de la misma forma en que se consideraría un error funcional o técnico.
Tener un registro de los cambios e implementaciones que se han hecho y sus impactos en términos de eco-diseño.

Eco-diseño

Los criterios

Cuando se usan modelos de inteligencia artificial, una consecuencia directa su impacto ambiental importante.

Es por ello que dado el contexto de nuestra solución, seleccionamos dos objetivos principales de eco-diseño:

Reducir al máximo el impacto medioambiental del uso de un modelo de IA.
Utilizar modelos abiertos para poder remplazarlos fácilmente si otros modelos mejores y más pequeños son publicados.

¿Cómo alcanzar nuestros objetivos de sostenibilidad?

Priorizar la eficacia por encima de la inmediatez de las respuestas

El envío de los archivos está desincronizado con el tratamiento de estos.
Lo que se traduce en:

La utilización de servidores menos potentes, aceptando que la transcripción puede tomar más tiempo. Esto disminuye la necesidad de crear nuevos servidores, al reutilizar los que ya existen y no implica un mayor gasto en dinero.
Una limitación del impacto sobre el consumo de recursos materiales. La mayoría de los softwares funcionan durante los picos de demanda energética. Hemos decidido ejecutarlo por la noche, lo que permite optimizar el uso del servidor sin perjudicar la calidad del servicio.
Un desacoplamiento entre la carga y el procesamiento de archivos permite apagar completamente el servicio de envío durante la noche, permitiendo un mejor uso de recursos por parte del servidor fuera del horario laboral.

Determinación del modelo de IA

Con el fin de ser autónomos e independientes respecto al tipo de modelos que usamos, buscamos modelos abiertos que podían ser reutilizados.
Buscamos modelos preentrenados para la transcripción en los idiomas que necesitábamos. Esto se traduce en una mejor traducción, incluso usando modelos más pequeños.
Gracias a una serie de pruebas, determinamos el modelo más ligero que nos permitía hacer transcripciones aceptables. El uso de modelos más grandes de lo necesario es una de las fuentes más importantes de impactos medioambientales.

¿Que queda por hacer?

En términos de funcionalidades:

Extender los posibles modelos de IA posibles. Por ejemplo, no solo la transcipción sino la traducción de texto o el resumen de documentos grandes.
Al establecer el modelo de IA como un módulo independiente, podemos extenderlo a cualquier otro tipo de trabajo que necesitemos y que pueda ser ejecutado de manera asíncrona.

En términos de eco-diseño:

Cuantificación de los impactos: medir la cantidad de emisiones de carbono emitidas por minuto de audio transcrito. Para ello, nos basaríamos en el SCI index de la Green Software Foundation. Esto ayudaría a cuantificar, en especial, el efecto de la elección del modelo. Como la solución está desplegada internamente, deberíamos tener la capacidad de obtener todos los datos necesarios para el cálculo.
Responder a los criterios esenciales del GR491: al ser un proyecto piloto, sólo algunos de los criterios fueron considerados durante la fase de desarrollo. Un análisis más exhaustivo debería hacerse si la aplicación evoluciona más allá.

Tu privacidad y soberanía

Mediante este software, pudimos establecer que es posible desplegar servicios que utilizan modelos de inteligencia artificial en servidores estándares, sin tener que utilizar servicios externos, conservando así la privacidad y soberanía de los datos. Y todo sin requerir un gasto adicional, una vez el sistema implementado.

Además, es interesante que al cuestionarse el verdadero uso de las herramientas, podemos tener un impacto directo en la forma en que se implementan. En este caso, al decidir que el resultado de nuestras transcripciones podía esperar y ser tratadas asíncronamente, logramos reutilizar servidores existentes, los cuales no darían abasto si se requiriese una respuesta más rápida.