High Performance Language Technologies

Descripción del proyecto

Una tecnología innovadora añadida a la panoplia de la Red Lingüística Europea

El equipo del proyecto HPLT, financiado con fondos europeos, aplica informática de alto rendimiento para ampliar y mejorar las tecnologías lingüísticas. Aprovechando los avances recientes en el aprendizaje automático y las asombrosas capacidades de almacenamiento, creará y procesará enormes conjuntos de datos lingüísticos y producirá modelos lingüísticos y de traducción en una gran cantidad de lenguas. Los modelos resultantes se probarán desde varios ángulos para garantizar una integración fluida, una alta precisión y el cumplimiento normativo en materia de privacidad, sesgos no deseados y cuestiones éticas. Los modelos y conjuntos de datos cambiarán las reglas del juego en el mercado de servicios lingüísticos dentro y fuera de la Unión Europea. Los modelos resultantes serán abiertos y gratuitos y estarán disponibles en repositorios lingüísticos establecidos para todo aquel interesado en realizar proyectos de investigación o innovación.

Objetivo

High Performance Language Technologies (HPLT) is a space combining petabytes of natural language data with large-scale model training. With trillions of words of text, the space will be the largest open text collection. Cleaning and privacy protecting services improve the quality and ethical properties of the text. Going beyond static repositories that require the user to individually analyze each data set, the project will rate data sets by how much they improve end-to-end language models and machine translation systems. Continuous integration of models and data will result in free downloadable high-quality models for all official European Union languages and beyond. The models will be reproducible with information and evaluation metrics shown in a publicly available dashboard. By focusing on training at scale, the project complements the inference-focused European Language Grid, which in turn will be used for model deployment. Datasets, models and information about them will be published in recognized FAIR data repositories, aggregation catalogues and marketplaces for easy discovery, access, replication, and exploitation.

Ámbito científico

Palabras clave

Coordinador

UNIVERZITA KARLOVA

Aportación neta de la UEn

€ 641 812,50

Dirección

OVOCNY TRH 560/5
116 36 Praha 1
Chequia

Región

Česko Praha Hlavní město Praha

Tipo de actividad

Higher or Secondary Education Establishments

Enlaces

Contactar con la organización Sitio web

Participación en los programas de I+D de la UE

Red de colaboración de HORIZON

Coste total

€ 641 812,50

Participantes (6)

PROMPSIT LANGUAGE ENGINEERING, SL

España

Aportación neta de la UEn

€ 414 400,00

UNIVERSITETET I OSLO

Noruega

Aportación neta de la UEn

€ 717 100,00

HELSINGIN YLIOPISTO

Finlandia

Aportación neta de la UEn

€ 594 625,00

TURUN YLIOPISTO

Finlandia

Aportación neta de la UEn

€ 689 000,00

CESNET ZAJMOVE SDRUZENI PRAVNICKYCH OSOB

Chequia

Aportación neta de la UEn

€ 415 000,00

SIGMA2 AS

Noruega

Aportación neta de la UEn

€ 408 750,00

Socios (1)

Socio

THE UNIVERSITY OF EDINBURGH

Reino Unido

Aportación neta de la UEn

€ 0,00

Descripción del proyecto

Una tecnología innovadora añadida a la panoplia de la Red Lingüística Europea

Objetivo

Ámbito científico

Palabras clave

Programa(s)

Tema(s)

Convocatoria de propuestas

Régimen de financiación

Coordinador

Participantes (6)

Socios (1)

Compartir esta página

Descargar