Donner une voix à chaque langue: des livres audio alimentés par l’IA pour tous
Cette méthode basée sur l’IA permet de réduire les coûts de production de près de 60 % et de ramener le temps de production à une heure seulement.
Aistis Raudys, directeur général d’AAI Labs
«Les langues peu dotées, celles dont les données numériques sont limitées et qui disposent de peu d’outils pour aider les ordinateurs à prononcer le texte, seraient souvent négligées sur le marché des livres audio», explique Aistis Raudys, directeur général d’AAI Labs(s’ouvre dans une nouvelle fenêtre), une entreprise lituanienne d’IA spécialisée dans l’apprentissage automatique et les solutions d’IA générative. En 2022, un consortium dirigé par AAI Labs a reçu un financement de l’UE, du LMT(s’ouvre dans une nouvelle fenêtre), d’HAMAG-BICRO(s’ouvre dans une nouvelle fenêtre) et du DSTI(s’ouvre dans une nouvelle fenêtre) pour développer Audiobooks for Everyone (AFE), une plateforme alimentée par l’IA qui rend plus rapide et plus abordable la création de livres audio dans des langues souvent négligées. Le soutien a été apporté par l’intermédiaire d’Eurostars(s’ouvre dans une nouvelle fenêtre), qui fait partie du partenariat européen pour les PME innovantes, qui aide les petites entreprises innovantes à travailler avec des partenaires internationaux pour commercialiser de nouvelles technologies. Grâce à ce financement et à une collaboration transfrontalière active, AAI Labs et ses partenaires ont combiné l’expertise en IA avec le savoir-faire en matière d’édition en Europe et en Afrique, créant ainsi une solution destinée à ouvrir le marché du livre audio à davantage de langues, de lecteurs et d’éditeurs.
Faire tomber les barrières
Sans la technologie appropriée, la production de livres audio reste trop coûteuse, en particulier pour les petits éditeurs et auteurs, ce qui crée un cycle dans lequel ces langues restent peu dotées. AFE utilise une IA de pointe pour changer la donne. «L’innovation principale d’AFE, le clonage vocal interlinguistique, fonctionne comme un traducteur vocal, permettant au logiciel de recourir à un échantillon de voix pour narrer un texte dans des langues que le locuteur ne parle pas réellement», explique Aistis Raudys. Un seul narrateur peut raconter oralement une histoire dans plusieurs langues, ce qui favorise la réalisation de livres audio immersifs à plusieurs personnages sans avoir à engager une équipe complète. Le projet a réuni des équipes de Lituanie, de Croatie et d’Afrique du Sud. AAI Labs a dirigé le développement technique, en concevant les systèmes et les modèles de synthèse vocale. Bulaja Naklada(s’ouvre dans une nouvelle fenêtre) s’est chargé de la collecte et du test des données européennes, tandis que Quickfox Publishing(s’ouvre dans une nouvelle fenêtre) a fourni des ensembles de données sur les langues africaines et a mis au point l’Audiobook Creation Suite qui se veut conviviale. «Cette équipe a joué un rôle essentiel en combinant des compétences techniques et la compréhension du marché afin de garantir la réussite et l’inclusivité du produit, et de le préparer pour les marchés d’Afrique et d’Europe», poursuit Aistis Raudys.
Élargir les horizons culturels
La participation au partenariat européen pour les PME innovantes a été déterminante. «Le partenariat a immédiatement élargi l’accès au marché pour la Lituanie en offrant de nouvelles opportunités commerciales et de nouveaux contacts en Croatie et en Afrique du Sud», note Aistis Raudys. Au-delà du financement, il a facilité l’échange d’expertise: AAI Labs a partagé son savoir-faire en matière d’IA, tandis que les éditeurs partenaires ont apporté des informations pratiques qui ont permis de mettre au point des solutions prêtes à être commercialisées. AFE a déjà obtenu des résultats remarquables. «La plus grande réussite du projet est l’inclusion de plusieurs langues peu dotées, telles que le zoulou, le xhosa, l’afrikaans, le croate et le lituanien», explique Aistis Raudys. Auparavant, ces langues étaient presque totalement absentes du marché des livres audio. Cette technologie crée de nouvelles opportunités commerciales pour les éditeurs et étend l’accès des auditeurs à un plus large éventail de littérature dans des formats et des langues qu’ils peuvent apprécier. Outre les langues peu dotées, AFE a couvert des langues bien dotées, comme le russe, le français et l’espagnol. À l’autre bout de l’échelle, elle s’est également concentrée sur certains dialectes.
De nouvelles voix pour une plus grande diversité
La mise au point du système n’a pas été sans difficultés. «Le principal défi technique consistait à appliquer des systèmes d’IA avancés à des langues contenant peu de données numériques», explique Aistis Raudys. L’équipe a surmonté ce problème en utilisant des textes accentués, en recrutant des locuteurs natifs pour obtenir un retour d’information, et en appliquant la recherche linguistique. «AFE a répondu à la demande artistique d’une narration naturelle et expressive en formant directement les modèles d’IA grâce à des données vocales volontairement expressives», ajoute-t-il. À l’avenir, AFE promet de transformer l’accessibilité et l’inclusivité des livres audio. «Cette méthode basée sur l’IA permet de réduire les coûts de production de près de 60 % et de ramener le temps de production à une heure seulement, éliminant ainsi des dépenses coûteuses telles que la narration et l’enregistrement», note Aistis Raudys. Elle profite aussi aux auditeurs malvoyants, soutient les petits éditeurs et aide les PME innovantes dans toute l’Europe. En combinant l’IA et la créativité, AFE fait entendre de nouvelles voix dans des langues peu dotées et façonne un paysage numérique et culturel plus inclusif. «AFE contribuera à l’égalité des chances entre les différentes langues européennes», déclare Aistis Raudys. Le projet montre comment la technologie peut favoriser la créativité, préserver la diversité linguistique et élargir l’accès à la littérature pour tous. Une fois le projet achevé, AAI Labs a pour objectif d’affiner et de développer la plateforme AFE, d’étendre la prise en charge à d’autres langues et dialectes peu dotés, et de commercialiser la technologie par le biais de partenariats avec des éditeurs et des plateformes de contenu. Face à la demande mondiale croissante de livres audio et de contenus numériques accessibles, cette solution présente un fort potentiel commercial pour ouvrir de nouveaux marchés tout en soutenant la diversité linguistique dans le monde entier. Le consortium a réuni AAI Labs, Bulaja Naklada et Quickfox Publishing, et a été cofinancé par Horizon Europe, le Conseil de la recherche de Lituanie (LMT), l’Agence croate pour les PME et les investissements (HAMAG-BICRO), ainsi que par le ministère sud-africain de la science, de la technologie et de l’innovation (DSTI).