Jeder Sprache eine Stimme verleihen: KI-gestützte Hörbücher für alle
Mit dieser KI-basierte Methode werden die Produktionskosten um fast 60 % gesenkt und die Produktionszeit auf nur eine Stunde verkürzt.
Aistis Raudys, Geschäftsführer von AAI Labs
„Ressourcenarme Sprachen, für die nur begrenzt digitale Daten und wenige Werkzeuge zur Verfügung stehen, die Computern bei der Aussprache von Texten helfen, werden auf dem Hörbuchmarkt oft übersehen“, erklärt Aistis Raudys, Geschäftsführer von AAI Labs(öffnet in neuem Fenster), einem litauischen KI-Unternehmen, das auf maschinelles Lernen und generative KI-Lösungen spezialisiert ist. 2022 erhielt ein Konsortium unter der Leitung von AAI Labs Finanzmittel von der EU, LMT(öffnet in neuem Fenster), HAMAG-BICRO(öffnet in neuem Fenster) und DSTI(öffnet in neuem Fenster), um Audiobooks for Everyone (AFE) zu entwickeln, eine KI-gestützte Plattform, mit der die Erstellung von „Hörbüchern für alle“ in häufig übersehenen Sprachen schneller und kostengünstiger erfolgen kann. Die Unterstützung erfolgte im Rahmen von Eurostars(öffnet in neuem Fenster), Teil der Europäischen Partnerschaft für innovative KMU, die innovativen kleinen Firmen hilft, mit internationalen Partnern zusammenzuarbeiten, um neue Technologien auf den Markt zu bringen. Dank dieser Finanzierung und der aktiven grenzüberschreitenden Zusammenarbeit konnten AAI Labs und seine Partner KI-Expertise mit Verlags-Know-how aus Europa und Afrika kombinieren und somit eine Lösung schaffen, die den Hörbuchmarkt für mehr Sprachen, Lesende und Verlage öffnet.
Barrieren abbauen
Ohne die richtige Technologie ist die Hörbuchproduktion nach wie vor zu teuer, was insbesondere für kleine Verlage und unbekanntere Autorinnen und Autoren gilt und dazu führt, dass diese Sprachen weiterhin unterversorgt bleiben. Auf der Plattform AFE kommt nun modernste KI zum Einsatz, um Neues zu bewirken. „Die Kerninnovation von AFE, das sprachenübergreifende Stimmklonen, funktioniert wie eine Sprachübersetzung, bei der die Software mithilfe einer Stimmprobe Text in Sprachen vortragen kann, die die sprechende Person selbst nicht beherrscht“, erläutert Raudys. Ein einziger sprechender Mensch kann eine Geschichte in mehreren Sprachen „vorlesen“, wodurch immersive Hörbücher mit mehreren Charakteren realisierbar sind, ohne dass eine komplette Besetzung eingestellt werden muss. An dem Projekt nahmen Teams aus Litauen, Kroatien und Südafrika teil. AAI Labs agierte federführend bei der technischen Entwicklung und erstellte die Sprachsynthesesysteme und -modelle. Bulaja Naklada(öffnet in neuem Fenster) arbeitete die europäische Datensammlung und -prüfung zu, während Quickfox Publishing(öffnet in neuem Fenster) afrikanische Sprachdatensätze zur Verfügung stellte und das nutzungsfreundliche Hörbucherstellungspaket Audiobook Creation Suite kreierte. „Dieses Team bildete die grundlegende Basis, da es technische Kompetenzen mit Marktverständnis verband, um sicherzustellen, dass das Produkt erfolgreich, inklusiv und für die Märkte in Afrika und Europa bereit sein wird“, erklärt Raudys.
Kulturelle Horizonte erweitern
Die Beteiligung an der Europäischen Partnerschaft für innovative KMU bildete den Dreh- und Angelpunkt. „Dank der Partnerschaft konnte der Marktzugang für Litauen sofort erweitert werden, da sie neue Geschäftsmöglichkeiten und Kontakte in Kroatien und Südafrika eröffnete“, berichtet Raudys. Neben der Finanzierung erleichterte sie auch den Austausch von Fachwissen: AAI Labs vermittelte KI-Know-how, während Verlagspartner praktische Einblicke beisteuerten, die zur Entwicklung marktreifer Lösungen beitrugen. Mit der Plattform AFE wurden bereits bemerkenswerte Ergebnisse erzielt. „Die größte Errungenschaft des Projekts ist die erfolgreiche Einbeziehung mehrerer ressourcenarmer Sprachen wie Zulu, Xhosa, Afrikaans, Kroatisch und Litauisch“, sagt Raudys. Zuvor waren fehlten diese Sprachen fast vollständig auf dem Hörbuchmarkt. Die Technologie eröffnet den Verlagen neue Geschäftsmöglichkeiten und verschafft den Zuhörenden den Zugang zu einem breiteren Spektrum an Literatur in Formaten und Sprachen, die sie genießen können. Neben den ressourcenarmen Sprachen umfasste die Plattform AFE auch mit beträchtlichen Ressourcen ausgestattete Sprachen wie Russisch, Französisch und Spanisch; am anderen Ende der Skala lag der Schwerpunkt auf bestimmten Dialekten.
Neue Stimmen für mehr Vielfalt
Die Entwicklung des Systems verlief nicht ohne Schwierigkeiten. „Die größte technische Herausforderung bestand darin, fortgeschrittene KI-Systeme auf Sprachen mit wenig digitalen Daten anzuwenden“, erklärt Raudys. Das Team hat dieses Problem durch die Nutzung hervorgehobener Texte gelöst, wobei Muttersprachlerinnen und -sprachler zwecks Feedback engagiert wurden und Sprachforschung betrieben wurde. „Mit AFE wurde die künstlerische Forderung nach einer natürlichen, ausdrucksstarken Erzählweise erfüllt, indem die KI-Modelle direkt mit bewusst ausdrucksstarken Sprachdaten trainiert wurden“, fügt er hinzu. Mit Blick in die Zukunft könnte AFE die Zugänglichkeit von Hörbüchern verbessern und die Inklusivität fördern. „Diese KI-basierte Methode senkt die Produktionskosten um fast 60 % und verkürzt die Produktionszeit auf nur eine Stunde, wodurch kostspielige Ausgaben wie das Einsprechen und Aufnehmen entfallen“, erläutert Raudys. Sie kommt außerdem sehbehinderten Hörerinnen und Hörern zugute und unterstützt europaweit kleine Verlage sowie innovative KMU. Mit der Kombination aus KI und Kreativität bringt die Plattform AFE neue Stimmen in unterversorgte Sprachen ein und trägt zur Gestaltung einer inklusiveren digitalen und kulturellen Landschaft bei. „AFE ist ein Beitrag, um gleiche Bedingungen für die verschiedenen europäischen Sprachen zu schaffen“, betont Raudys. Die Arbeit des Projekts demonstriert, wie Technologie Kreativität fördern, die sprachliche Vielfalt bewahren und den Zugang zur Literatur für alle erweitern kann. Nach Projektabschluss wird das Unternehmen AAI Labs die AFE-Plattform weiter verfeinern und skalieren, die Unterstützung auf weitere ressourcenarme Sprachen und Dialekte ausweiten und die Technologie durch Partnerschaften mit Verlagen und Inhaltsplattformen auf den Markt bringen. Angesichts der weltweit steigenden Nachfrage nach Hörbüchern und zugänglichen digitalen Inhalten birgt die Lösung ein großes kommerzielles Potenzial, um neue Märkte zu erschließen und gleichzeitig weltweit die sprachliche Vielfalt zu unterstützen. Das Gemeinschaftsunternehmen brachte AAI Labs, Bulaja Naklada und Quickfox Publishing zusammen und wurde von Horizont Europa, dem litauischen Forschungsrat (LMT), der kroatischen Agentur für KMU und Investitionen (HAMAG-BICRO) sowie dem südafrikanischen Ministerium für Wissenschaft, Technologie und Innovation (DSTI) kofinanziert.