European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Ready-to-use Multilingual Linked Language Data for Knowledge Services across Sectors

Article Category

Article available in the following languages:

Augmenter l’adoption des technologies du langage

Un projet financé par l’UE entendait rendre les données ouvertes liées à la linguistique prêtes à l’emploi afin de garantir qu’aucun citoyen ne soit laissé pour compte suite à la révolution numérique.

Économie numérique icon Économie numérique
Société icon Société

Les technologies du langage jouent un rôle important pour faire tomber les barrières linguistiques, promouvoir le multiculturalisme et rendre la décennie numérique européenne accessible à tous. Ces technologies s’appuient sur de grandes quantités de données, et avec un meilleur accès et une meilleure utilisation des ressources linguistiques, elles peuvent également apporter des solutions multilingues qui soutiendront le marché unique numérique émergent en Europe. Toutefois, les spécialistes des technologies du langage consacrent environ 80 % de leur temps à nettoyer, organiser et collecter des ensembles de données parce que les données ne sont pas «prêtes à l’emploi». Le processus d’extraction-transformation-chargement, qui implique de relier des ensembles de données à des concepts existants, pourrait réduire cet effort. Toutefois, la technologie reste inexploitée. C’est là qu’intervient le projet Prêt-à-LLOD, financé par l’UE. «Nous cherchions à combiner des technologies de données liées avec des techniques de traitement du langage naturel (TLN) afin d’augmenter la disponibilité des technologies du langage pour les personnes et les entreprises en Europe», explique John McCrae, coordinateur du projet. Grâce aux technologies des données liées, il est plus facile de partager et de gérer les données sur le web, et donc d’améliorer leur disponibilité et leur accessibilité. Ainsi, le projet est similaire aux objectifs de l’initiative FAIR qui visent à accroître l’utilité des données», poursuit John McCrae.

Fournir une chaîne de valeur des données et des composants open-source clés

Le projet a développé une chaîne de valeur des données qui couvre tous les aspects du cycle de vie d’un ensemble de données et, notamment, la découverte, la transformation, la gestion (en particulier des licences), la liaison et l’application dans les flux de TLN. Ils ont également fourni cinq composants open-source clés qui soutiennent la chaîne de valeur des données envisagée par le projet. «Premièrement, le portail LingHub2 permet aux ressources linguistiques d’être découvertes en utilisant les principes des données liées et des méthodes de recherche, et il regroupe des données issues de nombreuses sources. Deuxièmement, nous avons développé Fintan, un nouveau moteur flexible pour la transformation des données présentées dans de nombreux formats en données liées», souligne John McCrae. Des outils de gestion politique des données qui permettent la combinaison de licences open-source à prévoir basées sur l’Open Digital Rights Language ont également été développés. En outre, plusieurs outils destinés à relier les ensembles de données à plusieurs niveaux, y compris la lexicalisation des ressources existantes, la liaison au niveau conceptuel et la liaison lexicale qui permettent aux ensembles de données d’être connectés et intégrés plus facilement, ont été conçus. «Nous avons développé Teanga, un outil de gestion du flux de travail qui permet d’utiliser différents composants et ensembles de données dans des flux définis avec des technologies telles que Docker et OpenAPI», ajoute John McCrae.

Ouvrir la voie aux pipelines de TLN flexibles

Ces outils ont été validés par des démonstrations avec les partenaires commerciaux du projet, y compris un nouveau système de dialogueur développé par Derilinx, des extensions à l’outil PoolParty populaire de la Semantic Web Company pour la gestion terminologique, de nouvelles méthodologies pour le TLN multilingue à la Semalytix, et des améliorations aux processus utilisés pour développer les dictionnaires à l’Oxford University Press, y compris l’Oxford English Dictionary. «Nous espérons que ce projet rendra davantage de données disponibles, améliorant la flexibilité et l’application des pipelines de TLN», conclut John McCrae. Un objectif particulier du projet est l’application des techniques de TLN aux langues minoritaires en Europe où les ressources ne sont pas suffisamment disponibles et où il est possible d’améliorer la situation de ces langues par la gestion des données et les outils de TLN développés au cours de ce projet.

Mots‑clés

Prêt-à-LLOD, TLN, technologies du langage, chaîne de valeur des données, technologies des données liées, composants open-source, traitement du langage naturel, marché unique numérique

Découvrir d’autres articles du même domaine d’application