European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Article Category

Article available in the following languages:

De nouveaux moyens d'améliorer la reconnaissance vocale

Si les ordinateurs pouvaient lire sur les lèvres comme les humains, quelles seraient les techniques requises pour enregistrer efficacement la voix à l'aide d'un équipement économique? Telle est la question étudiée par des chercheurs européens qui travaillent à améliorer les systèmes de reconnaissance vocale pour distinguer les voix de plusieurs personnes en conditions réelles.

Technologies industrielles icon Technologies industrielles

Les activités de recherche portant sur la reconnaissance vocale audiovisuelle étaient centrées sur l'extraction d'informations visuelles de la bouche de l'orateur, afin d'aider les ordinateurs à comprendre un débit normal de parole. Le gros du travail était néanmoins limité à des scénarios en conditions idéales basées sur des données visuelles d'excellente qualité. Ceci implique que des caméras coûteuses capturent des images haute résolution d'une seule personne immobile dont le visage reste tourné vers l'objectif dans des conditions d'éclairage normales.Dans ce contexte, le projet AVISPIRE (« Audio-visual speech processing for interaction in realistic environments ») avait pour objectif d'utiliser des systèmes audiovisuels abordables dans des environnements plus réalistes. Partant du scénario classique à un seul orateur et basé sur des données de haute qualité, le projet a poussé plus loin les recherches dans la reconnaissance vocale dans un environnement à plusieurs locuteurs et dans différentes conditions d'éclairement. Parallèlement, l'équipe a cherché à étudier les résultats produits par de nouveaux dispositifs de détection, capables de collecter les données vocales requises.Au départ, les activités portaient essentiellement sur le développement des composants de base d'un dispositif automatique de reconnaissance vocale audiovisuelle. À l'aide d'un sous-système visuel frontal, l'équipe a mis en œuvre l'algorithme Adaboost pour détecter le visage de l'orateur, ainsi qu'un extracteur normalisé permettant d'isoler la zone souhaitée de l'image (bouche). Les données audiovisuelles ont été fusionnées au moyen d'un modèle Markov multi-flux.Le sous-système visuel frontal et le sous-système de fusion audiovisuelle ont été combinés au capteur Microsoft Kinect. Ce dispositif peu coûteux fournit des informations sur les mouvements pendant que l'orateur parle, pour confirmer les positions de la tête. Les activités ont ensuite consisté à collecter les données pour créer un corpus audiovisuel bilingue enrichi des informations de mouvement. Cette base de données comprend des enregistrements en anglais et en grec.Pour finir, les partenaires du projet ont étudié comment utiliser la connaissance du schéma humain pour améliorer l'exactitude de la reconnaissance vocale audiovisuelle. La connaissance préalable du nombre de locuteurs et de leur emplacement devrait aider à améliorer considérablement les résultats en permettant de s'ajuster au contour de la bouche des orateurs.Les applications dans la vie quotidienne des interactions homme-machine basées sur la reconnaissance vocale sont de plus en plus répandues, mais de nombreux progrès restent à faire. En permettant de comprendre plusieurs personnes conversant dans des conditions réelles, le projet AVISPIRE a contribué à améliorer ce type d'interaction.

Découvrir d’autres articles du même domaine d’application