Servicio de Información Comunitario sobre Investigación y Desarrollo - CORDIS

H2020

HimL — Resultado resumido

Project ID: 644402
Financiado con arreglo a: H2020-EU.2.1.1.4.
País: Reino Unido
Dominio: Tecnologías de la información y la comunicación

Nuevos horizontes para la traducción automática en el ámbito sanitario

Investigadores europeos están ahora más cerca de lograr traducciones completamente automáticas basadas en un sistema neuronal capaz de traducir textos sobre sanidad pública del inglés al checo, alemán, polaco y rumano.
Nuevos horizontes para la traducción automática en el ámbito sanitario
La información en Internet suele estar disponible en unos pocos idiomas debido a que quien la produce no suele poder permitirse más traducciones. Sin embargo, investigadores del proyecto financiado con fondos europeos HimL (Health in My Language) han dado un paso más hacia una traducción automática completamente automatizada gracias a una colaboración con organismos sanitarios escoceses e internacionales en la que produjeron un sistema adaptado al ámbito de la salud.

«El dominio del idioma por parte de las comunidades de inmigrantes puede ser limitado, pero al mismo tiempo necesitan información sobre servicios sanitarios cercanos que puede no estar disponible en su idioma» indica Barry Haddow, coordinador del proyecto e investigador sénior del Departamento de Informática de la Universidad de Edimburgo. «La información sobre buenas prácticas en el ámbito sanitario generadas por investigaciones recientes suele publicarse en inglés, pero los consumidores prefieren acceder a los metaanálisis nuevos en su propio idioma».

Aprendizaje profundo

El equipo de HimL investigó mejoras cualitativas en la traducción automática y las incorporó a un sistema nuevo capaz de traducir del inglés al checo, el alemán, el polaco y el rumano. En un primer momento se optó por un método sintáctico basado en frases, pero rápidamente se pasó a la traducción automática neuronal (NMT), un método basado en aprendizaje profundo que surgió durante el transcurso del proyecto.

Cada año se publican versiones nuevas para los socios del proyecto, NHS 24, el Servicio Nacional de Salud de Escocia y Cochrane, una ONG que facilita el acceso a investigaciones sobre salud. Los resultados se evaluaron al detalle mediante encuestas y pruebas centradas en la aplicación.

Se introdujeron mejoras en tres áreas principales: la adaptación al dominio o la calibración de la traducción según la terminología específica de la sanidad pública, la semántica o garantizar la precisión de la traducción, y la morfología o asegurar que se producen variantes morfológicas correctas.

«La morfología del inglés no es excesiva, pero sí que es más intensa en muchos idiomas europeos como el checo o el polaco que, de hecho, tienen formas verbales y nominales en función del uso y, si se emplean mal, pueden cambiar el significado del texto», aclara el Dr. Haddow.

Se pidió a los usuarios que calificaran los resultados producidos por HimL en comparación con otros sistemas en línea populares. «Nuestros sistemas produjeron mejores resultados en todos los pares de idiomas —indica el Dr. Haddow—, si bien la elevada calidad que precisan los usuarios de NHS 24 y Cochrane implica que aún no es posible automatizar la traducción completamente».

Menos intervención humana

El equipo también exploró el grado de acierto de los sistemas de HimL cuando se combinan con postedición, un método en el que se parte de traducciones automáticas para bosquejar un borrador que después revisa un profesional de la traducción. «Cochrane mostró que la postedición en combinación con el sistema HimL en la herramienta MateCat era entre un 30 y un 40 % más rápido que la traducción desde cero para todos los idiomas excepto el polaco», confiesa el Dr. Haddow. Logramos reducir la cantidad de intervención humana en entre un 30 y un 50 % para generar una traducción tan buena como la que hubiésemos logrado optando por un método en el que solo tradujesen personas».

Otros resultados de la investigación fueron el corpus médico UFAL, un conjunto de datos estándar para entrenar a sistemas a trabajar con textos médicos. Este abarca ocho pares de idiomas europeos entre los que están los incluidos en HimL.

El análisis de los resultados de la NMT mostró que los problemas de los primeros sistemas se han superado en gran medida, pero que estos sistemas suelen obviar información importante o añadir información incorrecta. «Para evitarlo utilizamos una técnica denominada "reconstrucción", mediante la que sería posible reconstruir la fuente a partir de la traducción —asevera el Dr. Haddow—. También hemos mostrado formas de mejorar la NMT con diccionarios de gran calidad y sistemas para incorporar información semántica y sintáctica a partir de herramientas externas».

Palabras clave

HimL, traducción automática, ámbito sanitario, adaptación al dominio, semántica, morfología, idiomas ricos morfológicamente, postedición
Síganos en: RSS Facebook Twitter YouTube Gestionado por la Oficina de Publicaciones de la UE Arriba