European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Ready-to-use Multilingual Linked Language Data for Knowledge Services across Sectors

Article Category

Article available in the following languages:

Aumentar la aceptación de las tecnologías del lenguaje

El equipo de un proyecto financiado con fondos europeos se ha propuesto lograr que los datos lingüísticos de acceso libre vinculados estén listos para usarse a fin de ayudar a garantizar que ningún ciudadano se quede fuera de la revolución digital.

Economía digital icon Economía digital
Sociedad icon Sociedad

Las tecnologías del lenguaje desempeñan un papel importante a la hora de derribar las barreras lingüísticas, promover el multiculturalismo y conseguir que la década digital de Europa sea accesible para todos. Estas tecnologías se basan en grandes cantidades de datos y, con un acceso y un uso mejores de los recursos lingüísticos, también pueden brindar soluciones multilingües que respaldarán el mercado único digital que está surgiendo en Europa. Sin embargo, los especialistas en tecnologías del lenguaje dedican alrededor del 80 % de su tiempo a limpiar, organizar y recopilar conjuntos de datos, porque los datos no están «listos para usarse». El proceso de extracción, transformación y carga, que implica vincular conjuntos de datos con diseños existentes, tiene el potencial de reducir este esfuerzo. No obstante, la tecnología sigue sin aprovecharse. En este contexto interviene el proyecto Pret-a-LLOD, financiado con fondos europeos. «Nuestro objetivo era combinar tecnologías de datos vinculados con técnicas de procesamiento de lenguaje natural (PLN) a fin de aumentar la disponibilidad de las tecnologías del lenguaje para las personas y las empresas en Europa», explica John McCrae, coordinador del proyecto. El uso de tecnologías de datos vinculados permite que los datos se compartan y administren más fácilmente en la web y, por lo tanto, aumenta la disponibilidad y accesibilidad de los datos. «En este sentido, el proyecto es similar a los objetivos de la iniciativa FAIR destinada a aumentar la utilidad de los datos», señala McCrae.

Brindar una cadena de valor de datos y componentes clave de código abierto

El proyecto desarrolló una cadena de valor de datos que abarca todos los aspectos del ciclo de vida de un conjunto de datos y, en particular, el descubrimiento, la transformación, la gestión (especialmente de licencias), la vinculación y la aplicación en los flujos de trabajo del PLN. También aportaron cinco componentes de código abierto clave que respaldan la cadena de valor de datos prevista por el proyecto. «En primer lugar, el portal LingHub2 permite descubrir recursos lingüísticos utilizando principios de datos vinculados y métodos de consulta, además de añadir datos de una amplia variedad de fuentes. En segundo lugar, hemos desarrollado Fintan, un motor novedoso y flexible para la transformación de datos de una amplia variedad de formatos en datos vinculados», subraya McCrae. Igualmente, se desarrollaron herramientas para la gestión de datos impulsada por políticas que permiten predecir la posible combinación de licencias de código abierto en función del lenguaje abierto de derechos digitales. Además, se crearon varias herramientas para vincular conjuntos de datos en varios niveles, incluidas la lexicalización de los recursos existentes, la vinculación a nivel conceptual y la vinculación léxica que permiten que los conjuntos de datos se conecten e integren con mayor facilidad. «También hemos desarrollado Teanga, una herramienta de gestión de flujos de trabajo que permite utilizar distintos componentes y conjuntos de datos en flujos de trabajo definidos con tecnologías como Docker y OpenAPI», agrega McCrae.

Allanar el camino hacia procesos flexibles de PLN

Estas herramientas han sido validadas mediante demostraciones con los socios comerciales del proyecto. Entre ellas, se encuentra un novedoso sistema de robot conversacional desarrollado por Derilinx, extensiones de la popular herramienta PoolParty de Semantic Web Company para la gestión terminológica, metodologías novedosas para PLN multilingüe en Semalytix y mejoras en los procesos utilizados para desarrollar los diccionarios en Oxford University Press, incluido el «Oxford English Dictionary». «Esperamos que este proyecto asegure que haya más datos disponibles, lo cual permitirá que los procesos de PLN sean más flexibles y se apliquen rápidamente», concluye McCrae. Un objetivo particular del proyecto es la aplicación de técnicas de PLN a lenguas minoritarias en Europa, donde los recursos no están suficientemente disponibles y la situación de estos idiomas puede mejorarse mediante la gestión de datos y las herramientas de PLN desarrolladas en este proyecto.

Palabras clave

Pret-a-LLOD, PLN, tecnologías del lenguajes, cadena de valor de datos, tecnologías de datos vinculados, componentes de código abierto, procesamiento del lenguaje natural, mercado único digital

Descubra otros artículos del mismo campo de aplicación