Die Beurteilung der audiovisuellen Sprachqualität
Audiovisuelle Kommunikation findet immer mehr Verbreitung, etwa bei Telefonkonferenzen über Satellit oder beim Chatten über das Smartphone. So einfach es scheinen mag: Bilder und Ton synchron abspielen zu lassen ist eine schwierige Aufgabe, die von entscheidender Bedeutung für den Erfolg solch komplexer Anwendungen ist. Wenn es zu einer stotternden Kommunikation kommt, könnten die Nutzer schnell auf andere Kommunikationsmittel wechseln. Vor diesem Hintergrund wollte das EU-finanzierte Projekt PERCQUALAVS die Synchronität zwischen den visuellen und akustischen Elementen dieser Technologien messen. Aufbauend auf den Bereichen computergestütztes Sehen, Kognitionswissenschaft, maschinelles Lernen und Sprachverarbeitung konzipierte man ein Modell, um die wahrgenommene Qualität der audiovisuellen Übertragung vorherzusagen. Das Projekt war in vier Teile gegliedert. Im ersten Teil ging es darum, die wichtigsten audiovisuellen Funktionen aus einem Eingangssignal zu extrahieren, um Asynchronität automatisch zu erkennen. Im zweiten Teil wurden in verschiedenen Experimenten Reaktionsdaten der subjektiven Wahrnehmung gesammelt. Diese Daten wurden im dritten Teil analysiert, während die vierte Komponente maschinelles Lernen umfasste, um die menschliche Wahrnehmung von asynchronen Signalen voraussagen zu können. Mithilfe von Computern konnten die Projektforscher mit ihren entwickelten Geräten (feature extractors) Lippen in Echtzeit lesen und wertvolle Daten extrahieren, außerdem halfen Toolkits für die Sprachverarbeitung bei der Analyse der Daten. Ein weiterer wichtiger Erfolg des Projekts war die Entwicklung von Software zur Verarbeitung der extrahierten Merkmale, um Synchronität zu messen und die Ergebnisse abzubilden. Dies ermöglichte den Vergleich zwischen den Wahrnehmungsreaktionen der Nutzer und den automatisch generierten Ergebnissen. Auch wenn die Ergebnisse des Projekts aufgrund technischer und zeitlicher Schwierigkeiten nicht ausreichend verbreitet werden konnten, so legten sie doch den Grundstein für mehr Forschungen in diesem Bereich. Ein wichtiger Schritt für die Bewertung und Verbesserung audiovisueller Technologien, die weltweit immer mehr Bedeutung erlangen.
Schlüsselbegriffe
audiovisuell, Sprachqualität, asynchron, Kommunikation, maschinelles Lernen, menschliche Wahrnehmung, asynchrone Eingänge