CORDIS - Forschungsergebnisse der EU
CORDIS

A Model for Predicting Perceived Quality of Audio-visual Speech based on Automatic Assessment of Intermodal Asynchrony

Article Category

Article available in the following languages:

Die Beurteilung der audiovisuellen Sprachqualität

Beim Betrachten von Videos kann es zu störenden Verzögerungen zwischen Bild und Ton kommen. Neue Forschungen für eine effektive Messung asynchroner audiovisueller Signale könnten helfen, dieses Problem zu lösen.

Industrielle Technologien icon Industrielle Technologien

Audiovisuelle Kommunikation findet immer mehr Verbreitung, etwa bei Telefonkonferenzen über Satellit oder beim Chatten über das Smartphone. So einfach es scheinen mag: Bilder und Ton synchron abspielen zu lassen ist eine schwierige Aufgabe, die von entscheidender Bedeutung für den Erfolg solch komplexer Anwendungen ist. Wenn es zu einer stotternden Kommunikation kommt, könnten die Nutzer schnell auf andere Kommunikationsmittel wechseln.    Vor diesem Hintergrund wollte das EU-finanzierte Projekt PERCQUALAVS die Synchronität zwischen den visuellen und akustischen Elementen dieser Technologien messen. Aufbauend auf den Bereichen computergestütztes Sehen, Kognitionswissenschaft, maschinelles Lernen und Sprachverarbeitung konzipierte man ein Modell, um die wahrgenommene Qualität der audiovisuellen Übertragung vorherzusagen.    Das Projekt war in vier Teile gegliedert. Im ersten Teil ging es darum, die wichtigsten audiovisuellen Funktionen aus einem Eingangssignal zu extrahieren, um Asynchronität automatisch zu erkennen. Im zweiten Teil wurden in verschiedenen Experimenten Reaktionsdaten der subjektiven Wahrnehmung gesammelt.    Diese Daten wurden im dritten Teil analysiert, während die vierte Komponente maschinelles Lernen umfasste, um die menschliche Wahrnehmung von asynchronen Signalen voraussagen zu können. Mithilfe von Computern konnten die Projektforscher mit ihren entwickelten Geräten (feature extractors) Lippen in Echtzeit lesen und wertvolle Daten extrahieren, außerdem halfen Toolkits für die Sprachverarbeitung bei der Analyse der Daten.    Ein weiterer wichtiger Erfolg des Projekts war die Entwicklung von Software zur Verarbeitung der extrahierten Merkmale, um Synchronität zu messen und die Ergebnisse abzubilden. Dies ermöglichte den Vergleich zwischen den Wahrnehmungsreaktionen der Nutzer und den automatisch generierten Ergebnissen.    Auch wenn die Ergebnisse des Projekts aufgrund technischer und zeitlicher Schwierigkeiten nicht ausreichend verbreitet werden konnten, so legten sie doch den Grundstein für mehr Forschungen in diesem Bereich. Ein wichtiger Schritt für die Bewertung und Verbesserung audiovisueller Technologien, die weltweit immer mehr Bedeutung erlangen.

Schlüsselbegriffe

audiovisuell, Sprachqualität, asynchron, Kommunikation, maschinelles Lernen, menschliche Wahrnehmung, asynchrone Eingänge

Entdecken Sie Artikel in demselben Anwendungsbereich