Comment les machines interprètent le langage humain

En faisant progresser notre compréhension de la manière dont les systèmes automatiques traitent le langage humain, le projet SEQCLAS a jeté les bases qui permettront de faire passer les technologies textuelles et vocales alimentées par l’IA à un niveau supérieur.

Économie numérique

Avez-vous déjà essayé d’apprendre à parler couramment une langue étrangère en étudiant des listes de mots et des règles grammaticales? Si oui, vous n’êtes probablement pas allé bien loin. L’expérience acquise en écoutant, en lisant et en parlant joue un rôle essentiel dans le processus d’apprentissage humain. Il n’en va pas autrement lorsqu’il s’agit de développer des technologies du langage humain(s’ouvre dans une nouvelle fenêtre) (TLH), comme la reconnaissance vocale, la traduction automatique et la reconnaissance des images textuelles. Les progrès réalisés dans ces domaines sont le fruit d’énormes avancées de l’IA, étant donné que les réseaux neuronaux(s’ouvre dans une nouvelle fenêtre) sont entraînés avec des données du monde réel pour reconnaître et traduire la langue avec plus de précision. Pour les aider à atteindre leur plein potentiel, le projet SEQCLAS a examiné ce que ces trois technologies ont en commun. Financé par le Conseil européen de la recherche(s’ouvre dans une nouvelle fenêtre) (CER), le projet les a examinées sous l’angle d’un cadre global basé sur la théorie de la décision statistique(s’ouvre dans une nouvelle fenêtre). Sa contribution pourrait permettre aux équipes travaillant sur les TLH d’évaluer les algorithmes de manière critique et de les améliorer.

Une «verre» pour un «ver»

«Dans les trois domaines d’application, c’est le contexte qui permet au système de mieux interpréter les données d’entrée et de générer des résultats plus précis», explique Hermann Ney, directeur du Human Language Technology and Pattern Recognition Group(s’ouvre dans une nouvelle fenêtre) à l’université RWTH d’Aix-la-Chapelle, en Allemagne, et chercheur principal de SEQCLAS. Toutefois, lorsqu’il s’agit du langage, ce contexte est complexe et comporte plusieurs niveaux. Comment la machine peut-elle apprendre à distinguer «pain» de «pin» pour le transcrire correctement, ou à distinguer le verbe «plancher» du nom, pour choisir la bonne traduction? «Si l’on prend l’exemple de la reconnaissance vocale, chaque son doit être considéré comme faisant partie d’une séquence – un mot, une phrase, voire un dialogue – pour en interpréter correctement le sens», explique Hermann Ney. Traiter et classer de telles séquences signifie permettre aux réseaux neuronaux de reconnaître les schémas qui les structurent. L’équipe de SEQCLAS a examiné ce défi du point de vue de la théorie de la décision. Ce cadre souligne l’importance du critère de performance (par exemple, le nombre d’erreurs) pour ces tâches de traitement de séquence à séquence. «En conséquence, le critère de performance peut être utilisé pour améliorer la structure et la formation des systèmes basés sur les réseaux neuronaux», fait remarquer Hermann Ney. En ce qui concerne la traduction automatique, cette performance peut être plus difficile à quantifier, concède-t-il, en raison de l’existence de différentes interprétations et traductions possibles.

Des pistes pour progresser

Pour compléter leurs travaux conceptuels, les chercheurs ont travaillé sur un certain nombre de modèles et de tests permettant de les transposer sous forme d’améliorations pratiques. Ils ont utilisé des techniques d’apprentissage non supervisé(s’ouvre dans une nouvelle fenêtre) et semi-supervisé(s’ouvre dans une nouvelle fenêtre) pour permettre la traduction automatique à partir de données monolingues dans les langues source et cible. Ce travail pourrait notamment contribuer à améliorer les traductions automatiques pour des paires de langues moins courantes. Hermann Ney et ses collègues ont également réalisé plusieurs prototypes de systèmes qui serviront de base à de nouvelles recherches dans ce domaine prometteur. Il est convaincu que l’approche globale du projet offre également une perspective historique unique sur les concepts qui sont à la base de la TLH. «Nous avons tendance à oublier que les réseaux neuronaux sont utilisés pour la reconnaissance vocale depuis plus de 30 ans. Leur développement a longtemps été freiné par le manque de puissance de calcul», ajoute Hermann Ney. «Réévaluer et mettre à jour les recherches existantes à la lumière des capacités et des connaissances actuelles pourrait nous aider à réaliser de nouvelles avancées dans ce domaine.»