Los ordenadores aprenden maltés

Un equipo de investigadores ha entrenado un modelo de lenguaje en datos textuales en maltés y le ha enseñado a identificar los sentimientos y los nombres de etiqueta de un texto.

Economía digital

Las tecnologías del lenguaje basadas en la inteligencia artificial están abriendo nuevas vías para la comunicación digital en todos los idiomas europeos. No obstante, las herramientas y recursos de las tecnologías del lenguaje no están disponibles para el maltés. El proyecto LT-BRIDGE, financiado con fondos europeos, trabaja para salvar esta brecha desde su puesta en marcha, en 2021. En el procesamiento del lenguaje natural, los modelos de lenguaje se entrenan para asociar palabras entre sí en un contexto concreto por medio de métodos de redes neuronales. Los investigadores de la Universidad de Malta (UM), coordinadora del proyecto LT-BRIDGE, han entrenado uno de estos modelos —BERTu— en datos textuales en maltés.

Colmar las lagunas

Pero ¿qué son exactamente los modelos de lenguaje? El estudiante de doctorado de la UM Kurt Micallef los describe en un artículo(se abrirá en una nueva ventana) reciente publicado en el sitio web de «Times of Malta»: «Los modelos de lenguaje son una comprensión abstracta de un idioma. Se podría decir que son como una “intuición” de lo que es un idioma. Por ejemplo, si tuviese que completar el espacio en blanco de la frase “Jien _____ il-gazzetta” (Yo ____ el periódico), podría proponer “qrajt” (leí) o “xtrajt” (compré), pero es menos probable que sugiera “kilt” (comí) o “karozza” (coche)». Una forma de entrenar estos modelos de lenguaje es mediante el uso del modelado del lenguaje enmascarado. De forma aleatoria se enmascaran, o tapan, palabras de un texto y el modelo tiene que predecir cuál es la palabra que falta. «De manera que, en el ejemplo anterior, lo ideal sería que el modelo predijese “qrajt”», explica Micallef. Este proceso se repite en muchas frases para que el modelo de lenguaje puedan aprender maltés. La red neuronal se actualiza con cada frase utilizando algoritmos de aprendizaje automático y se asigna una probabilidad a las posibles palabras que pueden encajar en la frase en cuestión.

Otras tareas

BERTu se entrenó en otras dos tareas: análisis de sentimientos y reconocimiento de entidades nombradas. «El análisis de sentimientos es el proceso de identificación del sentimiento (u opinión) de un texto dado», explica el investigador en otro artículo de «Times of Malta»(se abrirá en una nueva ventana). «La forma más sencilla consiste en clasificar si un fragmento de texto transmite un sentimiento positivo o negativo con respecto a un tema o concepto. Por ejemplo, dados los comunicados presupuestarios de Malta, ¿este comentario es partidario o detractor de los comunicados realizados? Este tipo de tarea se conoce como problema de clasificación, porque para el texto que recibimos como dato de entrada generamos una etiqueta de clasificación (positiva o negativa en este ejemplo)». Micallef describe también la segunda tarea: «El reconocimiento de entidades nombradas es una tarea de etiquetado, en la que generamos una etiqueta para cada palabra del texto de entrada. En un texto determinado, la tarea consiste en clasificar qué etiquetas se refieren a entidades nombradas y qué tipo de entidades son. A diferencia del análisis de sentimientos, se trata de una tarea de un nivel bastante bajo, y por lo general se utilizaría para complementar otros sistemas de lenguaje. Por ejemplo, podríamos utilizar los datos de clasificación para identificar nombres de personas y anonimizarlos, a fin de cumplir las leyes de protección de datos». El equipo investigador perfeccionó y preentrenó el modelo BERTu en lo relativo a estas tareas añadiendo una capa adicional sobre el modelo para cada tarea y, a continuación, aplicando algoritmos de aprendizaje automático en el conjunto de datos para aprender los parámetros de la capa adicional. Se constató que BERTu superaba a otros modelos de lenguaje, en ocasiones en más de un 20 %. En estos momentos está permitiendo analizar tareas de comprensión de lenguaje más complejas en maltés. El proyecto LT-BRIDGE (Bridging the technology gap: Integrating Malta into European Research and Innovation efforts for AI-based language technologies) finaliza en diciembre de 2023. Para más información, consulte: Sitio web del proyecto LT-BRIDGE(se abrirá en una nueva ventana)