Sprechende durch verbesserte Computerfähigkeiten erkennen

Die automatische Spracherkennung hat oft Probleme, wenn mehrere Menschen sprechen. Durch die Nutzung von Big Data konnte ein Forschungsteam nun zeigen, dass Maschinen das Erkennen einzelner Sprechenden erlernen können.

Digitale Wirtschaft

Mit der Technologie zur automatischen Spracherkennung(öffnet in neuem Fenster) können Computer gesprochene Sprache erkennen und in Text umwandeln. Da Menschen immer öfter durch ihre Stimme mit Maschinen interagieren, zum Beispiel über mobile Anwendungen, Suchanfragen und persönliche Assistenten wie Google Home, wird die Nachfrage unweigerlich zunehmen. Unterschiedliche Sprechende zu unterscheiden und zu erkennen, wer in einer bestimmten Aufzeichnung wann spricht (die sogenannte Diarisierung von Sprechenden)(öffnet in neuem Fenster) gehört zu den konkreten Aufgaben der automatischen Spracherkennung. Autorisierten Personen Zugriff zu gewähren oder Geräte so anzupassen, dass sie je nach Sprechenden bestimmte Funktionen bieten, sind weitere mögliche Aufgaben. Damit die Technologie durchweg effizient arbeitet, müssen jedoch bestimmte Herausforderungen bewältigt werden. Sehr laute Hintergrundgeräusche setzen oft die Maschinenleistung herab. Das Gleiche passiert, wenn sich zwei oder mehr Sprechende überschneiden. Das Fehlen von Hardware, mit der automatische Systeme so trainiert werden können, dass sie anhand großer Datenmengen lernen können, hat den Fortschritt bisher ebenso behindert.

Genaue Erkennung der Sprechenden

Das Projekt ETE SPEAKER(öffnet in neuem Fenster), das über die Marie-Skłodowska-Curie-Maßnahmen(öffnet in neuem Fenster) unterstützt und von der Technischen Universität Brünn(öffnet in neuem Fenster) in Tschechien koordiniert wurde, wollte potenzielle neue Ansätze für die Erkennung von Sprechenden untersuchen. „Situationen, die in realen Sprachanwendungen üblich sind, stellen für automatische Systeme immer noch eine Herausforderung dar“, erklärt Marie Skłodowska-Curie-Stipendiatin Alicia Lozano-Diez(öffnet in neuem Fenster), die jetzt als Assistenzprofessorin an der Autonomen Universität Madrid in Spanien tätig ist. Lozano-Diez und ihr Team wollten stabile Systeme für die Erkennung von Sprechenden entwickeln, welche in verschiedenen Situationen funktionieren. Dazu bedienten sie sich Algorithmen auf Basis von Deep Learning, welche die Sprechenden direkt anhand der Daten unterscheiden können. Am Anfang des Projekts stand eine gründliche Überprüfung der vorhandenen Ansätze, um zu sehen, welche Methoden effektiver sein könnten. Anschließend wurden die neuen Ansätze getestet. „Ein wichtiges Mittel, um Fortschritte zu machen, sind Technologiebewertungen, die verschiedene Fachleute und Institutionen organisieren“, sagt Lozano-Diez. „Dabei entwickeln Fachleute aus der ganzen Welt Systeme, die eine bestimmte Aufgabe bewältigen können.“ Das ETE SPEAKER-Projektteam nutzte diese Gelegenheit, um verschiedene Konzepte zu erarbeiten und zu testen. Diese verglich es anschließend mit anderen Teams und stellte somit fest, welche Herausforderungen noch immer zu bewältigen sind.

Deep-Learning-Ansätze

Durch die Teilnahme an diesen Bewertungen konnte Lozano-Diez zeigen, wie sich die Erkennung von Sprechenden verbessern lässt und wie einige Grenzen herkömmlicher Ansätze überwunden werden könnten. Das Team konnte das Potenzial von Deep Learning ausschöpfen, was zum Teil an den heute verfügbaren Daten lag. „Ein System, das wir für eine bestimmte Herausforderung(öffnet in neuem Fenster) entwickelten, erzielte unter allen Teilnehmenden die besten Ergebnisse“, fügt Lozano-Diez hinzu. „Die Bewertung konzentrierte sich auf Kurzzeitaufnahmen. Diese sind für automatische Systeme zur Erkennung von Sprechenden eine zusätzliche Herausforderung, da auf jeder Aufzeichnung nur wenige Sekunden gesprochen wird.“ Außerdem entwickelte das Projekt neue Methoden, die eine Diarisierung von Sprechenden bei sich überschneidenden Sprechenden ermöglichen. Lozano-Diez möchte ihre Forschung auf diesem Gebiet fortführen, um eine noch genauere Technologie zur Erkennung und Diarisierung von Sprechenden zu finden. „Es gibt jetzt neue Ansätze, die auch bei überlappender Sprache funktionieren, da sie direkt anhand der Daten lernen“, erklärt sie. Diese Daten – die akkurat gekennzeichnet sind und aus unterschiedlichen Szenarien stammen – sind jedoch rar. Lozano-Diez glaubt, dass weitere Forschungsarbeiten notwendig sind, damit die Technologie auch unter schwierigen Bedingungen ordnungsgemäß funktioniert. Ein gutes Beispiel hierfür sind Unterhaltungen in Restaurants, wo es viele Hintergrundgeräusche gibt, oder Bemerkungen in einer Konferenz, die von Mikrofonen aus der Ferne aufgezeichnet wurden.