Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

High Performance Language Technologies

Descripción del proyecto

Una tecnología innovadora añadida a la panoplia de la Red Lingüística Europea

El equipo del proyecto HPLT, financiado con fondos europeos, aplica informática de alto rendimiento para ampliar y mejorar las tecnologías lingüísticas. Aprovechando los avances recientes en el aprendizaje automático y las asombrosas capacidades de almacenamiento, creará y procesará enormes conjuntos de datos lingüísticos y producirá modelos lingüísticos y de traducción en una gran cantidad de lenguas. Los modelos resultantes se probarán desde varios ángulos para garantizar una integración fluida, una alta precisión y el cumplimiento normativo en materia de privacidad, sesgos no deseados y cuestiones éticas. Los modelos y conjuntos de datos cambiarán las reglas del juego en el mercado de servicios lingüísticos dentro y fuera de la Unión Europea. Los modelos resultantes serán abiertos y gratuitos y estarán disponibles en repositorios lingüísticos establecidos para todo aquel interesado en realizar proyectos de investigación o innovación.

Objetivo

High Performance Language Technologies (HPLT) is a space combining petabytes of natural language data with large-scale model training. With trillions of words of text, the space will be the largest open text collection. Cleaning and privacy protecting services improve the quality and ethical properties of the text. Going beyond static repositories that require the user to individually analyze each data set, the project will rate data sets by how much they improve end-to-end language models and machine translation systems. Continuous integration of models and data will result in free downloadable high-quality models for all official European Union languages and beyond. The models will be reproducible with information and evaluation metrics shown in a publicly available dashboard. By focusing on training at scale, the project complements the inference-focused European Language Grid, which in turn will be used for model deployment. Datasets, models and information about them will be published in recognized FAIR data repositories, aggregation catalogues and marketplaces for easy discovery, access, replication, and exploitation.

Coordinador

UNIVERZITA KARLOVA
Aportación neta de la UEn
€ 641 812,50
Dirección
OVOCNY TRH 560/5
116 36 Praha 1
Chequia

Ver en el mapa

Región
Česko Praha Hlavní město Praha
Tipo de actividad
Higher or Secondary Education Establishments
Enlaces
Coste total
€ 641 812,50

Participantes (6)

Socios (1)