Neue Wege zur besseren Spracherkennung

Vorausgesetzt, Computer könnten genau wie Menschen Lippen lesen, welche Techniken wären dann erforderlich, um die Stimme mit Hilfe kostengünstiger Ausrüstung auf effektive Weise zu erfassen? Diese Frage verfolgten EU-Forscherinnen und Forscher, die an der Verbesserung von Spracherkennungssystemen bei der Unterscheidung von Stimmen mehrerer Sprecher unter den Bedingungen realer Umgebungen arbeiten.

Industrielle Technologien

Bei der Erforschung der audiovisuellen (AV) Spracherkennung konzentrierte man sich bisher auf die Gewinnung visueller Informationen vom Mund des Sprechers, um den Computer dabei zu unterstützen, fließend gesprochene Sprache zu verstehen. Der größte Teil der Arbeit beschränkte sich jedoch auf den Idealfall beschreibende Szenarien, in denen die optischen Daten von hoher Qualität sind. Im Einzelnen bedeutet das, dass teure Kameras Bilder mit hoher Auflösung von einer einzelnen Person aufnehmen, die sich nicht frei bewegt und, meist in Umgebungslicht, eine frontal zugewandte Position vor der Kamera einnimmt. Vor diesem Hintergrund verfolgte das Projekt "Audio-visual speech processing for interaction in realistic environments" (AVISPIRE) das Ziel, kostengünstige AV-Systeme in realeren Umgebungen einzusetzen. Beginnend beim traditionellen Einzelsprecherszenario mit qualitativ hochwertigen Daten führte das Projekt weitere Arbeit zur Spracherkennung in einer Umgebung mit mehreren Sprechern unter unterschiedlichen Lichtbedingungen durch. Außerdem wollte man die Ausgangswerte neuer Messeinrichtungen untersuchen, welche die gewünschten Sprachdaten sammeln können. Die ersten Anstrengungen konzentrierten sich auf die Entwicklung der Grundkomponenten einer automatischen AV-Spracherkennungseinrichtung. Das Team konnte durch den Einsatz eines visuellen Front-End-Untersystems den AdaBoost-Algorithmus zum Erfassen des Gesichts des Sprechenden sowie einen normalisierten Extraktor zum Abgrenzen der interessierenden Bildregion (Mund) implementieren. Zum Verschmelzen der Audio- und Videodaten wurde ein Multi-Stream-Markov-Modell verwendet. Sowohl visuelle Frontend- als auch AV-Fusions-Subsysteme wurden dahingehend erweitert, dass sie den Microsoft-Kinect-Sensor enthalten. Dieses preisgünstige Gerät stellt Bewegungsinformationen bereit, wenn der Sprecher spricht, was die Robustheit gegenüber Kopfhaltungen verbessert. Die Arbeit hatte dann das Sammeln von Daten zum Schwerpunkt, um den zweisprachigen AV-Korpus, angereichert um Bewegungsinformationen, zu erstellen. Neben Englisch enthält diese Datenbank Aufnahmedaten in Griechisch. Zum Abschluss erkundeten die Projektpartner, wie eine Humanmustererkennung eingesetzt werden kann, um die Robustheit der AV-Spracherkennung zu verbessern. Vorkenntnisse über die Anzahl der Sprecher in der Szene sowie deren Standort sollten eine beträchtliche Verbesserung der Resultate unterstützen, da so die Mundkontur der Sprechenden korrigiert werden kann. Eine Mensch-Computer-Interaktion auf Basis vom Spracherkennung findet heutzutage zunehmend Anwendungen, hat aber noch einen langen Entwicklungsweg vor sich. Der AVISPIRE-Beitrag zur einer robusteren Ausprägung dieser Interaktion bestand in der Bereitstellung der Möglichkeit, dass mehr als eine sprechende Person unter ähnlichen Bedingungen wie im realen Leben verstanden werden kann.

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Neue Wege zur besseren Spracherkennung

Entdecken Sie Artikel in demselben Anwendungsbereich

Diese Seite teilen

Herunterladen