European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

A Model for Predicting Perceived Quality of Audio-visual Speech based on Automatic Assessment of Intermodal Asynchrony

Article Category

Article available in the following languages:

Évaluer la qualité des discours audiovisuels

Le retard d'une vidéo par rapport à un discours peut décourager les utilisateurs de technologie. Une nouvelle recherche sur la mesure efficace des signaux audiovisuels acoustiques pourrait contribuer à l'élimination de ce phénomène.

Technologies industrielles icon Technologies industrielles

La technologie audiovisuelle avancée est désormais une forme très commune d'échange, qu'elle soit utilisée pour des téléconférences par satellite ou à des discussions en temps réel sur des smartphones. L'idée peut paraître simple, mais faire coïncider l'image et la voie de manière synchronisée représente un défi crucial pour le succès de telles applications complexes. Lorsque les utilisateurs constatent que la communication n'est pas synchronisée, ils peuvent s'orienter vers d'autres types de communication. Le projet PERCQUALAVS, financé par l'UE, a étudié ce contexte et tenté de mesurer la synchronisation des éléments visuels et acoustiques de discours de ces technologies. Il a conçu, sur la base de domaines tels que la vision par ordinateur, les sciences cognitives, l'apprentissage mécanique et le déroulement de discours, pour concevoir un modèle capable de prévoir la qualité perçue des discours audiovisuels. Pour y parvenir, le projet a scindé ses activités en quatre parties. La première partie concernait l'extraction d'un signal d'entrée de dispositifs audiovisuels importants pour appliquer la détection automatique de manque de synchronisation. La deuxième partie consistant en la récolte de données de réponse perceptuelle subjective lors de plusieurs expériences de perception. La troisième partie était l'analyse des réponses perceptuelles collectées alors que la quatrième consistant en un composant d'apprentissage mécanique capable de prévoir la perception humaine d'une entrée asynchrone. L'équipe du succès a développé, avec succès, des dispositifs d'extraction basés sur la vision lisant, en temps réel, sur les lèvres et a extrait des données exploitables pour créer des jeux d'outils de traitement de discours et soutenir l'analyse de données. Citons, parmi les résultats importants du projet, le développement d'un logiciel de traitement des caractéristiques extraites pour en mesurer le synchronisme et cartographier les résultats. Ces résultats ont permis de comparer les réponses perceptuelles des utilisateurs aux résultats générés automatiquement. Les résultats du projet n'ont pas pu être diffusés pratiquement suite à diverses contraintes techniques et temporelles, ils ont cependant permis de poser la base d'une recherche plus avancée dans ce domaine. Le projet a fait un pas en avant pour l'évaluation et l'amélioration de la technologie audiovisuelle en croissance mondiale rapide.

Mots‑clés

Audiovisuel, qualité des discours, asynchrone, communication, apprentissage mécanique, perception humaine, entrée asynchrone

Découvrir d’autres articles du même domaine d’application