European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Domain Adaptation for Statistical Machine Translation

Article Category

Article available in the following languages:

Ampliar los límites de la traducción automática

Nuestra realidad interconectada globalizada hace que necesitemos herramientas de traducción automática cada vez más inteligentes. Gracias al aprendizaje profundo, un equipo ofrece soluciones para la traducción automática estadística.

Economía digital icon Economía digital

La traducción instantánea entre los idiomas europeos es fundamental para una gobernanza eficaz en la Unión Europea (UE), así como para las actividades académicas y comerciales. Los enfoques basados en datos y en técnicas de aprendizaje automático se utilizan ampliamente con este fin. Los conocimientos básicos proceden de corpus paralelos de textos y sus traducciones. Esto permite conseguir un nivel elevado de calidad en campos para los que se cuenta con grandes corpus de textos paralelos, como los de las organizaciones internacionales y la UE. Por el contrario, otros muchos ámbitos, como la literatura médica o jurídica, carecen de grandes corpus de textos paralelos, lo que se traduce en una calidad de la traducción que suele ser desigual y baja. Mediante un enfoque dual, el proyecto financiado con fondos europeos DASMT ha mejorado la adquisición de conocimientos para la traducción automática. Se centró en el aprovechamiento de grandes corpus paralelos de otros ámbitos en sistemas de traducción para ámbitos específicos, así como en extraer y ponderar de manera adecuada los conocimientos disponibles en textos del ámbito específico que no son paralelos.

Aprendizaje profundo: un reto y una oportunidad

El equipo de DASMT comenzó a trabajar con el aprendizaje profundo, para lo que se requieren unidades de procesamiento gráfico (GPU), adquiriendo PC para juegos con GPU de consumo. Alexander Fraser, coordinador del proyecto, comenta: «Realmente parecían equipos orientados a jugar con, por ejemplo, refrigeración líquida externa… pero muy pronto nos dimos cuenta de que teníamos que cambiar todo el programa de investigación para trabajar con modelos de aprendizaje profundo para traducción, lo cual requirió un gran esfuerzo durante el segundo y el tercer año del proyecto, y además tuvimos que realizar una importante inversión en servidores. No obstante, en última instancia, esto marcó una importante diferencia en el impacto logrado». Las soluciones de DASMT tienen un impacto directo sobre los proveedores de servicios de traducción así como un impacto académico, dado que la adaptación a ámbitos se aplica a todos los sistemas de procesamiento del lenguaje natural y a diversas áreas de la investigación sobre inteligencia artificial.

Resultados holísticos para el campo de la traducción automática

DASMT mejoró la traducción a lenguas morfológicamente ricas que utilizan clasificadores. En consecuencia, pasamos a interesarnos en la traducción automática neuronal (NMT), una tecnología nueva que supera algunas de las limitaciones de la traducción automática estadística basada en frases, la técnica anterior. Se realizaron importantes trabajos en este área, tanto en la generalización inflexional como en la mejora de la representación lingüística y en los algoritmos de entrenamiento rápido. Sorprendentemente, los investigadores acabaron enseñando a los sistemas de traducción automática sin utilizar datos paralelos. Además, investigaron la traducción de documentos utilizando la totalidad del contexto y lograron así un mejor modelado. El proyecto también se centró en varios idiomas con limitación de recursos digitales, como por ejemplo el hiligueino, un idioma importante de Filipinas. A través de estudios de casos especiales con el alto sorabo (una lengua eslava minoritaria de Alemania) y el chuvasio (una lengua minoritaria de Rusia), el equipo potenció la investigación sobre el preentrenamiento eficaz para la NMT no supervisada. Por último, DASMT creó un sistema de detección de expresiones de odio de alto rendimiento. El equipo de DASMT ha publicado el código de sus sistemas mejorados y tiene el compromiso de comunicar los resultados a las comunidades de traducción automática y de procesamiento del lenguaje natural multilingüe. «En el futuro, buscaremos más financiación para investigación procedente de organismos nacionales y europeos, y crearemos además una empresa semilla con enfoques tanto comerciales como sin ánimo de lucro, dado que ambos sectores muestran un importante interés en nuestros modelos multilingües mejorados», concluye Fraser.

Palabras clave

DASMT, traducción automática estadística, traducción automática, traducción, corpus paralelos, aprendizaje profundo, idioma, multilingüe

Descubra otros artículos del mismo campo de aplicación