Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

H2020

HimL — Résultat en bref

Project ID: 644402
Financé au titre de: H2020-EU.2.1.1.4.
Pays: Royaume-Uni
Domaine: Économie numérique

Repousser les limites de la traduction automatique dans le secteur de la santé

Des chercheurs européens nous ont permis de franchir une étape supplémentaire vers la traduction entièrement automatique grâce à un système de type neuronal capable de traduire des textes sur la santé publique de l’anglais vers le tchèque, l’allemand, le polonais et le roumain.
Repousser les limites de la traduction automatique dans le secteur de la santé
Les informations en ligne ne sont souvent disponibles qu’en quelques langues dans la mesure où les organisations n’ont pas les moyens de multiplier les traductions. Mais des chercheurs du projet Health in My Language, ou HimL, financé par l’UE, ont permis de franchir une étape supplémentaire vers la perspective de traductions entièrement automatiques, en travaillant avec des organismes de santé publique écossais et internationaux pour mettre au point un système adapté à ce secteur.

«Les communautés d’immigrants peuvent disposer d’une connaissance limitée de la langue locale, or ces derniers ont besoin d’informations sur les services de santé locaux qui ne sont pas disponibles dans leur langue», explique Barry Haddow, coordinateur du projet et chercheur sénior en informatique à l’université d’Édimbourg. «Les informations sur les meilleures pratiques en matière de soins de santé, résultant de recherches récentes, sont principalement diffusées en anglais, or les consommateurs souhaiteraient accéder à ces nouvelles méta-analyses dans leur propre langue».

Apprentissage profond

Le projet HimL a donc cherché à améliorer la qualité des traductions automatiques et à les intégrer dans un nouveau système capable de traduire de l’anglais vers le tchèque, l’allemand, le polonais et le roumain. Au départ, les travaux ont eu recours à une méthode syntaxique ou basée sur la phrase, mais le projet s’est rapidement tourné vers la traduction automatique neuronale (neural machine translation, NMT), méthode qui repose sur l’apprentissage profond et qui a émergé au cours du projet.

Chaque année, une nouvelle version a été mise en service pour les partenaires du projet NHS 24, le service national de santé écossais et Cochrane, une ONG qui facilite l’accès aux dernières recherches en matière de santé. Les résultats ont été soigneusement évalués en recourant à des enquêtes utilisateurs et à des tests axés sur l’application.

Les améliorations apportées ont porté sur trois axes principaux: l’adaptation au domaine ou la mise au point de la traduction en fonction de la terminologie spécifique de la santé publique; la sémantique ou comment garantir l’exactitude de la traduction; la morphologie ou comment s’assurer que les variantes morphologiques sont correctement reproduites.

«L’anglais ne présente que peu de variations morphologiques, contrairement à beaucoup de langues européennes comme le tchèque et le polonais: ces langues peuvent recourir à différentes formes d’un verbe ou d’un nom selon les usages et, en cas d’erreur, cela peut changer la signification du texte», explique le Dr Haddow.

Il a ainsi été demandé aux utilisateurs de classer les résultats produits par HimL et de les comparer à un système en ligne bien connu. «Nos systèmes ont été en mesure d’offrir de meilleurs résultats dans toutes les paires de langues», déclare le Dr Haddow, «cependant, étant donné les fortes exigences des utilisateurs de NHS 24 et de Cochrane en matière de qualité, nous ne sommes pas encore en mesure d’automatiser complètement la traduction».

Moins d’intervention humaine

L’équipe a également examiné le fonctionnement des systèmes HimL lorsqu’ils sont combinés à une étape de post-édition, cette méthode utilise la traduction automatique pour produire une première version brute, puis un traducteur humain corrige le résultat. «Cochrane a montré que la post-édition en utilisant le système HimL dans l’outil MateCat était 30 à 40 % plus rapide qu’une traduction classique pour toutes les langues à l’exception du polonais», déclare le Dr Haddow. «Nous avons été en mesure de réduire la part de l’intervention humaine de 30 à 50 % et de produire une traduction d’aussi bonne qualité que si elle avait été réalisée au moyen d’une méthode complètement humaine».

D’autres résultats obtenus incluent la mise en place d'un corpus médical de l’UFAL, un ensemble de données standards pour entraîner les systèmes à traiter des textes médicaux. Ce corpus couvre huit paires de langues européennes, y compris celles de HimL.

L’analyse des résultats de NMT a montré que des problèmes détectés dans des systèmes précédents étaient à présent largement résolus, mais que ces systèmes restaient néanmoins susceptibles d’omettre des informations importantes ou d’en ajouter des incorrectes. «Pour éviter cela, nous utilisons une technique appelée la “reconstruction”, qui implique la reconstitution de la source à partir de la traduction cible», explique le Dr Haddow. «Nous avons également montré comment optimiser la NMT en utilisant des dictionnaires de très bonne qualité et comment intégrer des informations sémantiques et syntaxiques à partir d’outils externes».

Mots-clés

HimL, traduction automatique, secteur de la santé, sémantique, morphologie, langues morphologiquement riches, langues, post-édition