Cómo interpretan las máquinas el lenguaje humano

Al mejorar la comprensión de cómo los sistemas automáticos procesan el lenguaje humano, el equipo del proyecto SEQCLAS ha sentado las bases para llevar las tecnologías de texto y voz impulsadas por inteligencia artificial (IA) al siguiente nivel.

Economía digital

¿Alguna vez ha intentado adquirir fluidez en una lengua extranjera estudiando listas de palabras y reglas gramaticales? Si es así, es probable que no haya llegado muy lejos. Ganar experiencia escuchando, leyendo y hablando es fundamental en el proceso de aprendizaje humano. Esto sigue siendo así cuando se trata de desarrollar tecnologías del lenguaje humano(se abrirá en una nueva ventana) (TLH), como el reconocimiento de voz, la traducción automática y el reconocimiento de imágenes de texto. El progreso en estos campos se ha visto favorecido por los enormes avances de la IA, a medida que se entrena a las redes neuronales(se abrirá en una nueva ventana) con datos del mundo real para que reconozcan y traduzcan el lenguaje con mayor precisión. Para ayudarlas a desarrollar todo su potencial, el equipo del proyecto SEQCLAS analizó los puntos en común de estas tres tecnologías. Financiado por el Consejo Europeo de Investigación(se abrirá en una nueva ventana), el equipo del proyecto los estudió desde la perspectiva de un marco holístico basado en la teoría de la decisión estadística(se abrirá en una nueva ventana). Su contribución podría permitir a los equipos que trabajan en TLH evaluar y mejorar los algoritmos de forma crítica.

La importancia del contexto

«En los tres ámbitos de aplicación, es el contexto el que permite al sistema lograr mejores interpretaciones de la información introducida y producir unos resultados más precisos», explica Hermann Ney, director del Grupo de Tecnología del Lenguaje Humano y Reconocimiento de Patrones(se abrirá en una nueva ventana) de la Universidad Técnica de Aquisgrán (Alemania) e investigador principal de SEQCLAS. Sin embargo, en lo que respecta al lenguaje, este contexto es complejo y tiene muchas capas. ¿Cómo puede la máquina aprender a distinguir «ola» de «hola» para transcribir la palabra correctamente o distinguir «haber» de «a ver» para elegir la traducción correcta? «Si tomamos el ejemplo del reconocimiento de voz, cada sonido debe considerarse como parte de una secuencia —una palabra, una frase, incluso un diálogo— para interpretar correctamente su significado», comenta Ney. Para procesar y clasificar esas secuencias, las redes neuronales deben ser capaces de reconocer los patrones que las estructuran. El equipo de SEQCLAS analizó este reto desde la perspectiva de la teoría de la decisión. Este marco destaca la importancia del criterio de rendimiento (por ejemplo, el número de errores) para estas tareas de procesamiento de secuencia a secuencia. «Como resultado, el criterio de rendimiento puede utilizarse para mejorar la estructura y el entrenamiento de los sistemas basados en redes neuronales», señala Ney. Reconoce que, en el ámbito de la traducción automática, este rendimiento puede ser más difícil de cuantificar debido a la existencia de diferentes interpretaciones y traducciones posibles.

Información para seguir avanzando

A fin de complementar su labor conceptual, los investigadores trabajaron en una serie de modelos y pruebas que convierten el planteamiento en mejoras prácticas. Utilizaron las técnicas de aprendizaje no supervisado(se abrirá en una nueva ventana) y semisupervisado(se abrirá en una nueva ventana) para lograr una traducción automática que use datos monolingües en los idiomas de origen y destino. Este trabajo podría contribuir, por ejemplo, a que se disponga de mejores traducciones automáticas para los pares de idiomas menos comunes. Ney y sus colegas también proporcionaron varios prototipos de sistemas que servirán de base para nuevas investigaciones en este prometedor campo. Cree que el enfoque holístico del proyecto también ofrece una perspectiva histórica única sobre los conceptos que sustentan las TLH. «Tendemos a olvidar que las redes neuronales se han utilizado para el reconocimiento de voz durante más de treinta años. Durante mucho tiempo, su desarrollo se ha visto frenado por la falta de potencia computacional», añade Ney. «Reevaluar y actualizar las investigaciones existentes a la luz de las capacidades y los conocimientos actuales podría ayudarnos a lograr nuevos avances en este campo».