Inklusive künstliche Sprachintelligenz für Menschen mit Sprechstörungen
Die Sprachtechnologie floriert. Laut einer Umfrage im Jahr 2023 setzen mehr als acht von zehn Wirtschaftsführungskräften diese Methode in ihrem Unternehmen ein. Wir nutzen zunehmend die automatische Spracherkennung, um mit virtuellen Assistenten und der Haustechnik zu interagieren, online zu suchen und einzukaufen sowie gesprochene Worte zu transkribieren. Bislang ist diese Revolution nicht inklusiv gewesen. „Ironischerweise haben viele derjenigen, die diese Technologien am dringendsten benötigen – Menschen mit Behinderungen, die beispielsweise Hilfe benötigen, um das Licht auszuschalten oder den Fernseher einzuschalten – keinen Zugang zu ihnen, weil sie auch unter Sprechstörungen leiden“, sagt Sara Smolley, Vizepräsidentin und Mitbegründerin des Start-ups Voiceitt für automatische Spracherkennung. Menschen mit gestörten Sprechmustern bilden eine vielfältige Gemeinschaft, zu der beispielsweise Betroffene mit Down-Syndrom und infantiler Zerebralparese, aber auch viele ältere Erwachsene gehören. Dank des EU-finanzierten Projekts NUVOIC ermöglicht Voiceitt nun vielen Mitgliedern dieser heterogenen Gruppe, zu kommunizieren und sich auf neue Weise auszudrücken. NUVOIC steht für „neue Stimme“. Mit dem Projekt wurden zwei Ziele verfolgt, erklärt Smolley: „Wir wollten Menschen mit Sprechbehinderungen die Möglichkeit geben, sich frei auszudrücken, und ihnen mehr Unabhängigkeit bieten, indem wir ihnen Zugang zu auf künstliche Intelligenz gestützte Sprachtechnologie geben.“
Ein technologischer Sprung nach vorn
Die Technologie der ersten Generation von Voiceitt bot Nutzenden die Möglichkeit, eine Anwendung auf alltägliche Phrasen zu trainieren, die sie dann verwenden konnten, um sich auszudrücken. Mit der neuen Projektfinanzierung im Rahmen von NUVOIC konnte das Team diese Idee auf die nächste Stufe heben. Die neue webbasierte im Handel erhältliche Voiceitt-Anwendung kann spontan produzierte Sprache nach einer kurzen Trainingsphase erkennen, in der die Benutzenden etwa 400 kurze Sätze aufnehmen. Das erkannte Gesprochene kann transkribiert oder von einem Sprachsynthesizer vorgelesen werden, um mit anderen Menschen zu interagieren. Es kann auch zur Interaktion mit Werkzeugen der künstlichen Intelligenz wie ChatGPT verwendet werden. „Jemand könnte zum Beispiel sagen: ,Wie ist das Wetter in Brüssel?‘ oder ,Helfen Sie mir, eine Geburtstagsparty zu planen‘, indem er oder sie unsere App benutzt“, erklärt Smolley. Dazu sammelte das NUVOIC-Projektteam unter der Leitung des Konsortialpartners Karten Network große Mengen an Sprachaufnahmen von Menschen mit Sprechstörungen. Diese Datensätze wurden mit modernsten maschinellen Lernverfahren kombiniert, um eine einzigartige Spracherkennung zu entwickeln.
Neue Wege zur Verbindung
Neben der eigenständigen App lieferte das Team auch eine Anwendungsprogrammierschnittstelle. Gemeinsam mit Partnern wie imec arbeiteten sie an Integrationen, die die Unabhängigkeit der Nutzenden weiter erhöhen und ihnen neue Möglichkeiten zur Kontaktaufnahme mit anderen bieten könnten. Ein Beispiel dafür ist die Zusammenarbeit mit Cisco bei der Integration von Voiceitt in Webex. Das Add-on ermöglicht es Nutzenden, die abweichend sprechen, in einer Besprechung natürlich zu sprechen und ihre Worte in Echtzeit für die anderen Besprechungsteilnehmenden zu transkribieren und anzuzeigen. Das Voiceitt-Team arbeitete auch mit dem E-Commerce-Riesen Procter & Gamble zusammen, um zu untersuchen, wie Voiceitt für das Einkaufen per Stimme eingesetzt werden kann.
Ein breites Spektrum an potenziellen Nutzenden
Die Technologie könnte möglicherweise auch anderen Nutzenden die Tür zu besseren Sprachinteraktionen öffnen. „Wir haben großes Interesse an der Anwendung der Technologie auf Akzente und Dialekte“, sagt Smolley. „Wir haben auch ein Pilotprojekt mit einem Unternehmen durchgeführt, das an der Erforschung der Sprachtechnologie für Gehörlose interessiert ist.“ In einem nächsten Schritt bereitet das Team die Ausweitung seines Angebots auf andere europäische Sprachen vor. „In diesem Zusammenhang suchen wir aktiv nach Kooperationen in ganz Europa – Partner und Teilnehmende, die daran interessiert sind, die Technologie zu testen oder Sprachproben zur Verfügung zu stellen“, fügt Smolley hinzu.
Schlüsselbegriffe
NUVOIC, automatische Spracherkennung, Sprechstörungen, Sprechbehinderungen, virtueller Assistent, Anwendungsprogrammierschnittstelle