Augmenter l’adoption des technologies du langage

Un projet financé par l’UE entendait rendre les données ouvertes liées à la linguistique prêtes à l’emploi afin de garantir qu’aucun citoyen ne soit laissé pour compte suite à la révolution numérique.

Économie numérique

Société

Les technologies du langage(s’ouvre dans une nouvelle fenêtre) jouent un rôle important pour faire tomber les barrières linguistiques, promouvoir le multiculturalisme et rendre la décennie numérique européenne accessible à tous. Ces technologies s’appuient sur de grandes quantités de données, et avec un meilleur accès et une meilleure utilisation des ressources linguistiques, elles peuvent également apporter des solutions multilingues qui soutiendront le marché unique numérique émergent en Europe. Toutefois, les spécialistes des technologies du langage consacrent environ 80 % de leur temps à nettoyer, organiser et collecter des ensembles de données parce que les données ne sont pas «prêtes à l’emploi». Le processus d’extraction-transformation-chargement, qui implique de relier des ensembles de données à des concepts existants, pourrait réduire cet effort. Toutefois, la technologie reste inexploitée. C’est là qu’intervient le projet Prêt-à-LLOD(s’ouvre dans une nouvelle fenêtre), financé par l’UE. «Nous cherchions à combiner des technologies de données liées avec des techniques de traitement du langage naturel (TLN) afin d’augmenter la disponibilité des technologies du langage pour les personnes et les entreprises en Europe», explique John McCrae, coordinateur du projet. Grâce aux technologies des données liées, il est plus facile de partager et de gérer les données sur le web, et donc d’améliorer leur disponibilité et leur accessibilité. Ainsi, le projet est similaire aux objectifs de l’initiative FAIR(s’ouvre dans une nouvelle fenêtre) qui visent à accroître l’utilité des données», poursuit John McCrae.

Fournir une chaîne de valeur des données et des composants open-source clés

Le projet a développé une chaîne de valeur des données qui couvre tous les aspects du cycle de vie d’un ensemble de données et, notamment, la découverte, la transformation, la gestion (en particulier des licences), la liaison et l’application dans les flux de TLN. Ils ont également fourni cinq composants open-source clés qui soutiennent la chaîne de valeur des données envisagée par le projet. «Premièrement, le portail LingHub2 permet aux ressources linguistiques d’être découvertes en utilisant les principes des données liées et des méthodes de recherche, et il regroupe des données issues de nombreuses sources. Deuxièmement, nous avons développé Fintan, un nouveau moteur flexible pour la transformation des données présentées dans de nombreux formats en données liées», souligne John McCrae. Des outils de gestion politique des données qui permettent la combinaison de licences open-source à prévoir basées sur l’Open Digital Rights Language ont également été développés. En outre, plusieurs outils destinés à relier les ensembles de données à plusieurs niveaux, y compris la lexicalisation des ressources existantes, la liaison au niveau conceptuel et la liaison lexicale qui permettent aux ensembles de données d’être connectés et intégrés plus facilement, ont été conçus. «Nous avons développé Teanga, un outil de gestion du flux de travail qui permet d’utiliser différents composants et ensembles de données dans des flux définis avec des technologies telles que Docker et OpenAPI», ajoute John McCrae.

Ouvrir la voie aux pipelines de TLN flexibles

Ces outils ont été validés par des démonstrations avec les partenaires commerciaux du projet, y compris un nouveau système de dialogueur développé par Derilinx, des extensions à l’outil PoolParty populaire de la Semantic Web Company pour la gestion terminologique, de nouvelles méthodologies pour le TLN multilingue à la Semalytix, et des améliorations aux processus utilisés pour développer les dictionnaires à l’Oxford University Press, y compris l’Oxford English Dictionary. «Nous espérons que ce projet rendra davantage de données disponibles, améliorant la flexibilité et l’application des pipelines de TLN», conclut John McCrae. Un objectif particulier du projet est l’application des techniques de TLN aux langues minoritaires en Europe où les ressources ne sont pas suffisamment disponibles et où il est possible d’améliorer la situation de ces langues par la gestion des données et les outils de TLN développés au cours de ce projet.

Mots‑clés

Informations projet

Pret-a-LLOD

N° de convention de subvention: 825182

DOI

10.3030/825182

Projet clôturé

Date de signature de la CE 14 Novembre 2018

Date de début 1 Janvier 2019

Date de fin 30 Juin 2022

Financé au titre de

INDUSTRIAL LEADERSHIP - Leadership in enabling and industrial technologies - Information and Communication Technologies (ICT)

Coût total

€ 2 997 181,25

Contribution de l’UE

€ 2 997 181,25

2 997 181,25

Coordonné par

UNIVERSITY OF GALWAY
Ireland

Fournir une chaîne de valeur des données et des composants open-source clés

Ouvrir la voie aux pipelines de TLN flexibles

Mots‑clés

Télécharger Télécharger le contenu de la page