CORDIS - Resultados de investigaciones de la UE
CORDIS

Integration of Machine Translation Paradigms

Article Category

Article available in the following languages:

Sistema lingüístico avanzado de código abierto

Una herramienta avanzada que pueda traducir idiomas de forma eficaz y en tiempo real resultaría tremendamente beneficiosa para la sociedad. Un grupo de científicos financiados por la Unión Europea propuso desarrollar un paradigma de traducción automática (TA) avanzada para mejorar la calidad de los textos traducidos.

Economía digital icon Economía digital
Sociedad icon Sociedad

La TA es un campo con un fuerte perfil interdisciplinar y multidisciplinar que requiere de la aportación de diversos profesionales, desde traductores e ingenieros hasta informáticos, matemáticos y lingüistas. El proyecto IMTRAP (Integration of machine translation paradigms), financiado con fondos comunitarios, trabajó en el desarrollo y la validación de un sistema de TA híbrido de código abierto. Los investigadores participantes centraron sus estudios en múltiples aspectos de la lingüística, como la morfología, la sintaxis y la semántica. El prototipo innovador de sistema híbrido combina diversos paradigmas de TA, incluidas traducciones automáticas estadísticas y basadas en reglas, y se pueden enriquecer entrenándolos con cualquier par de idiomas. Los científicos del proyecto introdujeron una TA estadística básica para las combinaciones chino-español e inglés-español a través de una recopilación de corpus para estos pares. Otro importante logro de IMTRAP fue el desarrollo del primer sistema híbrido de código abierto del chino hacia el español. Los datos introducidos en este sistema se procesaron previamente con una TA basada en reglas y, posteriormente, los producidos por este se trasladaron a un sistema de TA estadística. Este utiliza modelos con parámetros derivados del análisis de corpus monolingües y bilingües. El sistema basado en reglas se utilizó para definir las reglas de transferencia de estructuras oracionales, mientras que el sistema estadístico se consideró la única fuente para la transferencia del léxico. Empleando técnicas de TA estadística se observaron mejoras notables en las traducciones finales. Asimismo, el resultado de este nuevo sistema híbrido se contrastó con un moderno sistema de TA estadística en un entorno de prueba no perteneciente a ningún campo específico. Se constató que el nuevo sistema de TA basada en reglas es superior al sistema estadístico en todos los aspectos lingüísticos, a excepción del sintáctico. En concreto, el nuevo sistema híbrido mejoró con mucha diferencia al estadístico en términos de cobertura léxica. Por otro lado, IMTRAP logró obtener un nivel más elevado de hibridación tanto en el sistema estadístico como en la TA basada en reglas. El trabajo también se centró en extraer normas de transferencia, asignando una probabilidad a una secuencia de un número indeterminado de palabras e incorporando un modelo lingüístico a la fase de generación. Los resultados de la investigación, que consiguió su cometido, se publicaron en revistas científicas y en libros, y se presentaron en congresos internacionales.La comercialización de un sistema de TA híbrido a un precio competitivo tendrá múltiples aplicaciones en los sistemas de acceso a la información y a las traducciones de documentos. Se espera que la sociedad en su conjunto se beneficie enormemente de estos avances, de igual forma que lo hará el servicio civil europeo y las relaciones internacionales del continente, empezando por las partes asiáticas, ya que el proyecto se centró inicialmente en el idioma chino.

Palabras clave

Lingüística, traducción automática, IMTRAP, idiomas, traducción automática estadística

Descubra otros artículos del mismo campo de aplicación