CORDIS - Résultats de la recherche de l’UE
CORDIS

Integration of Machine Translation Paradigms

Article Category

Article available in the following languages:

Un système linguistique avancé en open source

Un outil avancé capable de traduire efficacement une langue en temps réel pourrait être extrêmement utile à la société. Des scientifiques financés par l'UE ont proposé un système avancé de traduction automatique capable d'améliorer la qualité des textes traduits.

Économie numérique icon Économie numérique
Société icon Société

La traduction automatique est un domaine où s'entrecroisent de nombreuses disciplines très diverses et qui fait appel à de nombreux professionnels: traducteurs, ingénieurs, informaticiens, mathématiciens et linguistes. Financé par l'UE, le projet IMTRAP (Integration of machine translation paradigms) s'est penché sur le développement et la validation d'un système de traduction automatique mixte open-source. Les chercheurs ont consacré leurs efforts à plusieurs aspects de la linguistique, tels que la morphologie, la syntaxe et la sémantique. Ce système prototype mixte haute technologie combine plusieurs principes de traduction automatique, notamment celui de traduction automatique basée sur des statistiques et de la traduction basée sur des règles, et peut être utilisable avec n'importe quelle paire de langues. Les chercheurs ont réalisé des systèmes de traduction automatique statistique de base chinois-espagnol et anglais-espagnol, à partir d'un ensemble de corpus pour ces paires de langues. Un autre résultat important du projet IMTRAP était le développement du premier système mixte open source chinois-espagnol. Les éléments en entrée de ce système ont été prétraités avec un système de traduction automatique basé sur des règles et le résultat a été transmis à un système de traduction automatique statistique. Ce dernier utilise des modèles dont les paramètres découlent de l'analyse de corpus monolingues et bilingues. La traduction automatique basée sur des règles a été utilisée pour définir les règles de transfert structurel des phrases et la traduction automatique statistique a servi de source unique pour le transfert lexical des mots. Grâce aux techniques de traduction automatique statistique, des améliorations majeures ont été constatées au niveau du résultat final de la traduction. Une comparaison entre ce nouveau système mixte et le système de traduction automatique statistique haute technologie a été effectuée par le biais d'un jeu de tests hors domaine. Les résultats ont montré que le nouveau système de traduction automatique basé sur des règles donne de meilleurs résultats que le système basé sur les statistiques, à tous les niveaux linguistiques mais à l'exception de la syntaxe. Le nouveau système mixte a notamment surpassé l'état de l'art en matière de couverture lexicale. Par ailleurs, IMTRAP a atteint un niveau supérieur d'hybridation dans les statistiques et la RBMT. Les activités ont consisté à extraire des règles de transfert, à affecter une probabilité à une séquence de n mots, et à introduire un modèle de langues lors de la phase de génération. Les résultats de la recherche, qui a atteint son objectif, ont été publiés dans les revues et livres, et été communiqués lors de conférences internationales. La commercialisation d'un système de traduction automatique mixte efficace trouvera de nombreuses applications dans les systèmes d'accès aux informations et de traduction de documents. Cette avancée devrait profiter grandement à la société, ainsi qu'au service civil européen et aux relations internationales, notamment avec les parties asiatiques étant donné que le projet s'est d'abord concentré sur le chinois.

Mots‑clés

Linguistique, traduction automatique, IMTRAP, langues, statistique de traduction automatique

Découvrir d’autres articles du même domaine d’application