De l’audio au texte : IA, confidentialité et traitement asynchrone.

À l’ère du numérique, la confidentialité de nos données est devenue un enjeu essentiel.
C’est pour cela que nous développons des services numériques éthiques et durables, faits pour protéger vos données et pour durer dans le temps.

Dernièrement, nous avons relevé un défi passionnant : concevoir une solution avec IA qui préserve la souveraineté technologique et la vie privée des utilisateur⸱ice⸱s.

Le projet

Développer un service de transcription audio vers texte alternatif aux logiciels traditionnels.

Plutôt que de transférer des fichiers audios sensibles vers des serveurs externes, nous proposons une architecture décentralisée permettant à chaque organisation de déployer l’outil directement sur son infrastructure existante.

Cette approche répond à deux objectifs stratégiques :

Garantir une confidentialité maximale des données : que ce soit pour des données sensibles, un besoin de confidentialité ou simplement parce qu’on n’a pas envie que nos enregistrements se retrouvent sur des plateformes tierces. Cela implique une autonomie accrue.

Promouvoir une démarche en éco-conception : en réutilisant le matériel informatique existant, ce qui évite la surconsommation de ressources et l’obsolescence programmée.

Les principes de notre solution

Chaque membre de l’organisation a la possibilité de transformer facilement un fichier audio en texte écrit.

Le logiciel doit permettre à plusieurs personnes d’utiliser simultanément le service, sans limitation ni contrainte.

Il n’est pas absolument nécessaire d’obtenir une transcription instantanée. Les utilisateur⸱ice⸱s peuvent soumettre leurs fichiers et récupérer les transcriptions plus tard selon leur planning.

La solution doit s’intégrer parfaitement à l’infrastructure existante (le serveur existant de l’entreprise), sans générer de coûts supplémentaires après son développement initial.

Le logiciel

Ces exigences ont été traduites dans l’implémentation et le design suivants :

Chaque employé⸱e se connecte au site web de l’application et télécharge son fichier audio à transcrire, ainsi que son adresse e-mail pour recevoir la transcription.
Le fichier est sauvegardé sur le serveur.
Pendant la nuit, lorsque le serveur de l’entreprise est moins sollicité, un processus de batch se déclenche. Une transcription est générée pour chaque fichier téléchargé durant la journée, en utilisant un module d’IA optimisé pour les transcriptions.
Une fois la transcription terminée, le serveur envoie un e-mail contenant la transcription à la personne concernée.

Image expliquant le processus de transformation du fichier audio au fichier texte.

Diagramme des composants de l’application :

C'est un diagramme présentant la manière dont fonctionne le programme.

Méthodologie

Pour le développement de cette application, nous avons utilisé une méthodologie agile et intégré le cadre théorique du GREENSOFT model.

Un Sustainability Journal a été créé, dans lequel nous avons consigné chaque décision et ses conséquences en termes de durabilité du produit.

Cette approche permet :

d’intégrer les préoccupations et exigences en matière de durabilité au processus de développement ;
de conserver un registre des changements et des implémentations réalisés, ainsi que leurs impacts en termes d’éco-conception.

L’éco-conception

Les critères

On ne peut pas ignorer les impacts environnementaux des modèles d’IA. C’est pourquoi, dans le développement de notre solution, nous avons sélectionné deux objectifs principaux d’éco-conception :

Réduire au maximum l’impact environnemental de l’utilisation d’un modèle d’IA ;
Utiliser des modèles d’IA ouverts afin de pouvoir les remplacer facilement si d’autres modèles plus performants et plus légers sont publiés.

Comment atteindre nos objectifs de durabilité ?

Prioriser l’efficacité plutôt que l’immédiateté des réponses

Le processus d’envoi des fichiers est désynchronisé
du traitement de ces derniers.
Cela implique :

L’utilisation ou la réutilisation de serveurs moins puissants. La transcription prend plus de temps, mais il ne faut pas créer de nouveaux serveurs, ni engager de frais supplémentaires.
Une limitation de l’impact sur la consommation de ressources matérielles. La plupart des logiciels fonctionnent durant les pics de demande d’énergie. Nous avons décidé de l’exécuter la nuit, ce qui permet d’optimiser l’usage du serveur sans nuire à la qualité du service.
Un découplage entre l’envoi des fichiers au serveur et leur traitement. Le service d’envoi peut être complètement désactivé la nuit, puisque personne ne l’utilise en dehors des heures de bureau. Cela réduit la consommation énergétique du serveur.

La détermination du modèle d’IA

Dans un objectif d’autonomie et d’indépendance, nous avons opté pour des modèles d’IA ouverts qui pourraient être réutilisés.
Nous avons sélectionné des modèles pré-entraînés, spécialisés dans certaines langues. Cela nous permet d’obtenir une meilleure transcription, même avec des modèles de taille réduite.
Suite à des tests, nous avons déterminé le modèle le plus léger capable de produire des transcriptions acceptables. Le recours à des modèles plus puissants que nécessaire constitue l’une des principales sources d’impact environnemental.

Que reste-t-il à faire ?

Niveau fonctionnalités :

Étendre les modèles d’IA potentiels : au-delà de la transcription, nous envisageons des applications comme la traduction de texte ou le résumé de documents volumineux.
En concevant le modèle d’IA comme un module indépendant, nous pouvons l’adapter à tout type de tâche nécessitant un traitement asynchrone.

Niveau éco-conception :

Quantifier les impacts : il serait pertinent de mesurer les émissions de carbone générées par minute d’audio transcrite. Pour ce faire, nous nous appuierons sur l’index SCI de la Green Software Foundation. Cette démarche permettrait de quantifier précisément l’impact du modèle choisi. Notre solution étant déployée en interne, nous sommes en mesure de collecter toutes les données nécessaires à ce calcul.
Répondre aux critères essentiels du GR491 : s’agissant d’un projet pilote, seuls quelques critères ont été considérés durant la phase de développement. Une analyse plus approfondie serait nécessaire si l’application venait à évoluer.

La protection de vos données et souveraineté

Grâce au développement de ce logiciel, nous avons démontré qu’il est possible de déployer des services utilisant des modèles d’IA sur des serveurs standards, sans recourir à des services externes, préservant ainsi la confidentialité et la souveraineté des données. Et ce, sans engendrer de coûts supplémentaires une fois le système implémenté.

Qui plus est, en questionnant l’usage réel des outils technologiques, nous pouvons observer des impacts directs liés à leur implémentation. Dans notre cas, en choisissant de traiter nos transcriptions de manière asynchrone et différée, nous réutilisons des serveurs existants qui n’auraient pas suffi si une réponse immédiate avait été requise.

Cette approche illustre comment une réflexion approfondie sur les modalités de déploiement peut conduire à des solutions plus efficaces, économes et respectueuses des ressources existantes.