Skip to main content
European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

High Performance Language Technologies

Description du projet

Une technologie innovante ajoutée à la panoplie de l’European Language Grid

Le projet HPLT, financé par l’UE, applique le calcul à haute performance pour mettre à l’échelle et faire avancer les technologies des langues. Profitant des récents progrès réalisés dans l’apprentissage automatique et d’incroyables capacités de stockage, il créera et traitera d’importants ensembles de données linguistiques et produira des modèles de langue et de traduction dans un grand nombre de langues. Les modèles qui en découleront seront testés sous différents angles afin de garantir une intégration harmonieuse, une précision élevée, et une conformité réglementaire en matière de vie privée, de préjugés non désirés et de questions éthiques. Les modèles et les ensembles de données changeront la donne dans le marché des services linguistiques dans l’UE et au-delà. Les modèles résultants seront ouverts, gratuits et disponibles auprès de référentiels de langues établis pour les personnes qui souhaitent mener des recherches ou des projets d’innovation.

Objectif

High Performance Language Technologies (HPLT) is a space combining petabytes of natural language data with large-scale model training. With trillions of words of text, the space will be the largest open text collection. Cleaning and privacy protecting services improve the quality and ethical properties of the text. Going beyond static repositories that require the user to individually analyze each data set, the project will rate data sets by how much they improve end-to-end language models and machine translation systems. Continuous integration of models and data will result in free downloadable high-quality models for all official European Union languages and beyond. The models will be reproducible with information and evaluation metrics shown in a publicly available dashboard. By focusing on training at scale, the project complements the inference-focused European Language Grid, which in turn will be used for model deployment. Datasets, models and information about them will be published in recognized FAIR data repositories, aggregation catalogues and marketplaces for easy discovery, access, replication, and exploitation.

Coordinateur

UNIVERZITA KARLOVA
Contribution nette de l'UE
€ 641 812,50
Adresse
OVOCNY TRH 560/5
116 36 Praha 1
Tchéquie

Voir sur la carte

Région
Česko Praha Hlavní město Praha
Type d’activité
Higher or Secondary Education Establishments
Liens
Coût total
€ 641 812,50

Participants (6)

Partenaires (1)