Skip to main content

Robust End-To-End SPEAKER recognition based on deep learning and attention models

Article Category

Article available in the folowing languages:

Améliorer les capacités informatiques à reconnaître les locuteurs

La reconnaissance vocale automatisée rencontre souvent des problèmes lorsque plusieurs personnes parlent. En appliquant les mégadonnées, les chercheurs ont montré comment apprendre aux machines à identifier des locuteurs individuels.

Économie numérique

La technologie de reconnaissance automatique de la parole (RAP) permet la reconnaissance et la traduction de la langue parlée en texte par des ordinateurs. Alors que les humains interagissent de plus en plus avec les machines au moyen de la voix, par exemple via des applications mobiles, des requêtes de recherche et des assistants personnels comme Google Home, la demande pour cette technologie est appelée à augmenter. Distinguer les locuteurs individuels et savoir qui parle quand dans un enregistrement donné (connu sous le nom de diarisation du locuteur) sont des tâches spécifiques de la RAP. Les applications potentielles incluent l’octroi d’un accès à une personne autorisée ou la personnalisation de dispositifs pour fournir des fonctionnalités spécifiques, selon le locuteur. Cependant, pour que cette technologie soit toujours efficace, certains défis doivent être pleinement relevés. Un bruit de fond élevé ou la prise de parole simultanée de deux locuteurs ou plus dégradent souvent les performances de la machine. Le manque de matériel disponible pour entraîner les systèmes automatiques à apprendre à partir de grandes quantités de données a également entravé les progrès.

Reconnaissance précise du locuteur

Le projet ETE SPEAKER, entrepris avec le soutien du programme Actions Marie Skłodowska-Curie et coordonné par l’Université technologique de Brno en Tchéquie, voulait examiner de nouvelles approches potentielles de la reconnaissance des locuteurs. «Les conditions courantes dans les applications vocales réelles constituent toujours un défi pour les systèmes automatiques», explique la boursière Marie Skłodowska-Curie Alicia Lozano-Diez, aujourd’hui professeure adjointe à l’Université autonome de Madrid en Espagne. Alicia Lozano-Diez et son équipe ont cherché à développer des systèmes de reconnaissance de locuteurs robustes capables d’effectuer leur tâche dans différents scénarios. Pour cela, elles ont utilisé des algorithmes basés sur l’apprentissage profond , capables de distinguer les locuteurs directement à partir des données. Le projet a commencé par un examen approfondi des approches existantes, pour déterminer les endroits où de nouvelles méthodes pourraient être plus efficaces. Elles ont ensuite testé ces nouvelles approches. «Les évaluations technologiques organisées par différents experts et institutions sont un moyen essentiel de progresser», explique Alicia Lozano-Diez. «Dans ces évaluations, des experts du monde entier développent des systèmes visant à résoudre une tâche spécifique.» L’équipe du projet ETE SPEAKER a profité de ces occasions pour développer et tester les différentes approches développées. Elle les a ensuite comparées avec d’autres équipes, pour identifier les défis restants à relever.

Approches d’apprentissage profond

La participation à ces évaluations a permis à Alicia Lozano-Diez de démontrer comment améliorer la reconnaissance du locuteur et comment surmonter certaines limites des approches traditionnelles. L’équipe a pu exploiter le potentiel des approches d’apprentissage profond, en partie grâce aux données disponibles aujourd’hui. «Un système que nous avons développé pour un défi particulier a obtenu les meilleurs résultats parmi tous les participants», ajoute Alicia Lozano-Diez. «Cette évaluation s’est concentrée sur les enregistrements de courte durée. Ceux-ci peuvent constituer un défi supplémentaire pour les systèmes de reconnaissance automatique du locuteur, puisque chaque enregistrement ne contient que quelques secondes de discours.» Le projet a également développé de nouvelles méthodes pour traiter les locuteurs qui parlent simultanément pour la tâche de diarisation des locuteurs. Alicia Lozano-Diez prévoit de poursuivre ses recherches dans ce domaine, pour améliorer cette technologie de reconnaissance et de diarisation du locuteur et la rendre encore plus précise. «De nouvelles approches sont désormais capables de traiter le problème complexe des chevauchements de parole en apprenant directement à partir des données», explique-t-elle. Cependant, ce type de données – étiquetées avec précision et recueillies à partir de plusieurs scénarios différents – est rare, et Alicia Lozano-Diez estime que davantage de recherches sont nécessaires pour que cette technologie fonctionne correctement dans des conditions difficiles. Un bon exemple de cela pourrait être les conversations dans un restaurant, qui contiennent beaucoup de bruit de fond, ou des commentaires enregistrés à partir de microphones distants durant une conférence.

Mots‑clés

ETE SPEAKER, parole, traduction, langage, données, diarisation, locuteur, algorithmes

Découvrir d’autres articles du même domaine d’application