European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Domain Adaptation for Statistical Machine Translation

Article Category

Article available in the following languages:

Repousser les limites de la traduction automatique

Notre réalité mondiale interconnectée nécessite des outils de traduction automatique toujours plus intelligents. Par le biais de l’apprentissage profond, une équipe a proposé des solutions concernant la traduction automatique statistique.

Économie numérique icon Économie numérique

La traduction instantanée des langues européennes est cruciale, aussi bien pour assurer une gouvernance efficace dans l’UE que pour mener des activités scientifiques et commerciales. Des approches axées sur les données et basées sur des techniques d’apprentissage automatique sont largement utilisées pour répondre à cet objectif. Leurs connaissances élémentaires proviennent d’un corpus parallèle composé de textes et de leurs traductions, ce qui implique l’obtention de traductions de grande qualité dans des domaines dotés de corpus parallèles, comme c’est le cas pour les organisations internationales et européennes. À l’inverse, de nombreux autres domaines, comme les littératures médicale ou juridique pauvres en corpus parallèles conséquents, souffrent d’une qualité de traduction médiocre et inégale. Par le biais d’une double approche, le projet DASMT, financé par l’UE, a amélioré l’acquisition de connaissances en traduction automatique. Il cherche principalement à savoir comment tirer parti de grands corpus parallèles hors-domaine provenant de systèmes de traduction spécifiques à un domaine, ainsi qu’à exploiter et pondérer de manière appropriée les connaissances disponibles dans des textes relatifs à ce domaine sans être parallèles.

L’apprentissage profond: un défi et une opportunité

L’équipe du projet DASMT s’est initialement impliquée dans l’apprentissage profond, ce qui a nécessité des processeurs graphiques (GPU pour graphics processing units) obtenus en achetant des ordinateurs de jeu équipés de GPU domestiques. Alexander Fraser, coordinateur du projet, ajoute: «Ils ressemblaient vraiment à des machines de jeu avec, par exemple, un système de refroidissement externe… Pourtant, nous avons rapidement compris qu’il fallait changer complètement notre programme de recherche pour travailler avec des modèles d’apprentissage profond de traduction, ce qui a demandé beaucoup d’efforts au cours de la seconde et de la troisième année du projet et nécessité des achats conséquents de serveurs. Mais finalement, cela a fait une grosse différence sur l’impact obtenu.» Les solutions proposées par DASMT ont un impact direct sur les fournisseurs de services de traduction, ainsi qu’un impact académique, puisque l’adaptation de domaine s’applique à tous les systèmes de traitement du langage naturel et à de nombreuses spécialités de la recherche sur l’intelligence artificielle.

Des résultats complets en matière de traduction automatique

Le projet DASMT améliore la traduction des langues morphologiquement riches qui utilisent des classificateurs. Par conséquent, l’intérêt s’est tourné vers la traduction automatique neuronale (TAN), une nouvelle technologie surmontant certaines limitations de la traduction automatique statistique axée sur les syntagmes, qui représentait autrefois la technique de pointe. Un travail colossal a été réalisé ici, d’une part sur la généralisation de l’inflexion et sur l’amélioration de la représentation linguistique, et d’autre part sur des algorithmes d’apprentissage rapides. De façon surprenante, les chercheurs se sont retrouvés à travailler sur des systèmes de traduction automatique d’apprentissage sans utiliser de données parallèles. De plus, ils ont effectué des recherches sur la traduction de documents en exploitant le contexte général, et ont ainsi trouvé une meilleure modélisation. Le projet a aussi porté sur plusieurs langues sous-utilisées disposant de peu de ressources numériques comme c’est le cas de l’hiligaïnon, une langue très répandue aux Philippines. À travers des études de cas spécifiques portant sur le haut sorabe (une langue slave mineure parlée en Allemagne) et le tchouvache (une langue mineure russe), l’équipe a enrichi la recherche sur une préformation efficace en TAN non supervisée. Finalement, le projet DASMT a réussi à créer un système haute performance pour détecter les discours d’incitation à la haine. L’équipe du projet DASMT a mis en accès libre ses systèmes améliorés et s’est engagée à communiquer les résultats aux communautés impliquées dans la traduction automatique et dans le traitement multilingue du langage naturel. «À l’avenir, nous poursuivrons les recherches soutenues par des agences européennes et nationales. Nous créerons aussi une entité dérivée avec des objectifs à la fois commerciaux et non lucratifs, puisque ces deux secteurs manifestent un intérêt particulier pour nos modèles multilingues améliorés», révèle Alexander Fraser.

Mots‑clés

DASMT, traduction automatique statistique, traduction automatique, traduction, corpus parallèles, apprentissage profond, langue, multilingue,

Découvrir d’autres articles du même domaine d’application