CORDIS - Forschungsergebnisse der EU
CORDIS

Accessible Voice-Activated Technologies in a Voice-First World

Article Category

Article available in the following languages:

Inklusive künstliche Sprachintelligenz für Menschen mit Sprechstörungen

Wie können wir denjenigen Zugang zur Sprachtechnologie verschaffen, die ihn am dringendsten benötigen? Das EU-finanzierte Projekt NUVOIC liefert künstliche Sprachintelligenz für Menschen mit Sprechstörungen und ermöglicht so mehr Unabhängigkeit für Menschen mit motorischen und sprachlichen Behinderungen.

Digitale Wirtschaft icon Digitale Wirtschaft

Die Sprachtechnologie floriert. Laut einer Umfrage im Jahr 2023 setzen mehr als acht von zehn Wirtschaftsführungskräften diese Methode in ihrem Unternehmen ein. Wir nutzen zunehmend die automatische Spracherkennung, um mit virtuellen Assistenten und der Haustechnik zu interagieren, online zu suchen und einzukaufen sowie gesprochene Worte zu transkribieren. Bislang ist diese Revolution nicht inklusiv gewesen. „Ironischerweise haben viele derjenigen, die diese Technologien am dringendsten benötigen – Menschen mit Behinderungen, die beispielsweise Hilfe benötigen, um das Licht auszuschalten oder den Fernseher einzuschalten – keinen Zugang zu ihnen, weil sie auch unter Sprechstörungen leiden“, sagt Sara Smolley, Vizepräsidentin und Mitbegründerin des Start-ups Voiceitt für automatische Spracherkennung. Menschen mit gestörten Sprechmustern bilden eine vielfältige Gemeinschaft, zu der beispielsweise Betroffene mit Down-Syndrom und infantiler Zerebralparese, aber auch viele ältere Erwachsene gehören. Dank des EU-finanzierten Projekts NUVOIC ermöglicht Voiceitt nun vielen Mitgliedern dieser heterogenen Gruppe, zu kommunizieren und sich auf neue Weise auszudrücken. NUVOIC steht für „neue Stimme“. Mit dem Projekt wurden zwei Ziele verfolgt, erklärt Smolley: „Wir wollten Menschen mit Sprechbehinderungen die Möglichkeit geben, sich frei auszudrücken, und ihnen mehr Unabhängigkeit bieten, indem wir ihnen Zugang zu auf künstliche Intelligenz gestützte Sprachtechnologie geben.“

Ein technologischer Sprung nach vorn

Die Technologie der ersten Generation von Voiceitt bot Nutzenden die Möglichkeit, eine Anwendung auf alltägliche Phrasen zu trainieren, die sie dann verwenden konnten, um sich auszudrücken. Mit der neuen Projektfinanzierung im Rahmen von NUVOIC konnte das Team diese Idee auf die nächste Stufe heben. Die neue webbasierte im Handel erhältliche Voiceitt-Anwendung kann spontan produzierte Sprache nach einer kurzen Trainingsphase erkennen, in der die Benutzenden etwa 400 kurze Sätze aufnehmen. Das erkannte Gesprochene kann transkribiert oder von einem Sprachsynthesizer vorgelesen werden, um mit anderen Menschen zu interagieren. Es kann auch zur Interaktion mit Werkzeugen der künstlichen Intelligenz wie ChatGPT verwendet werden. „Jemand könnte zum Beispiel sagen: ,Wie ist das Wetter in Brüssel?‘ oder ,Helfen Sie mir, eine Geburtstagsparty zu planen‘, indem er oder sie unsere App benutzt“, erklärt Smolley. Dazu sammelte das NUVOIC-Projektteam unter der Leitung des Konsortialpartners Karten Network große Mengen an Sprachaufnahmen von Menschen mit Sprechstörungen. Diese Datensätze wurden mit modernsten maschinellen Lernverfahren kombiniert, um eine einzigartige Spracherkennung zu entwickeln.

Neue Wege zur Verbindung

Neben der eigenständigen App lieferte das Team auch eine Anwendungsprogrammierschnittstelle. Gemeinsam mit Partnern wie imec arbeiteten sie an Integrationen, die die Unabhängigkeit der Nutzenden weiter erhöhen und ihnen neue Möglichkeiten zur Kontaktaufnahme mit anderen bieten könnten. Ein Beispiel dafür ist die Zusammenarbeit mit Cisco bei der Integration von Voiceitt in Webex. Das Add-on ermöglicht es Nutzenden, die abweichend sprechen, in einer Besprechung natürlich zu sprechen und ihre Worte in Echtzeit für die anderen Besprechungsteilnehmenden zu transkribieren und anzuzeigen. Das Voiceitt-Team arbeitete auch mit dem E-Commerce-Riesen Procter & Gamble zusammen, um zu untersuchen, wie Voiceitt für das Einkaufen per Stimme eingesetzt werden kann.

Ein breites Spektrum an potenziellen Nutzenden

Die Technologie könnte möglicherweise auch anderen Nutzenden die Tür zu besseren Sprachinteraktionen öffnen. „Wir haben großes Interesse an der Anwendung der Technologie auf Akzente und Dialekte“, sagt Smolley. „Wir haben auch ein Pilotprojekt mit einem Unternehmen durchgeführt, das an der Erforschung der Sprachtechnologie für Gehörlose interessiert ist.“ In einem nächsten Schritt bereitet das Team die Ausweitung seines Angebots auf andere europäische Sprachen vor. „In diesem Zusammenhang suchen wir aktiv nach Kooperationen in ganz Europa – Partner und Teilnehmende, die daran interessiert sind, die Technologie zu testen oder Sprachproben zur Verfügung zu stellen“, fügt Smolley hinzu.

Schlüsselbegriffe

NUVOIC, automatische Spracherkennung, Sprechstörungen, Sprechbehinderungen, virtueller Assistent, Anwendungsprogrammierschnittstelle

Entdecken Sie Artikel in demselben Anwendungsbereich