Augmenter l’adoption des technologies du langage
Les technologies du langage jouent un rôle important pour faire tomber les barrières linguistiques, promouvoir le multiculturalisme et rendre la décennie numérique européenne accessible à tous. Ces technologies s’appuient sur de grandes quantités de données, et avec un meilleur accès et une meilleure utilisation des ressources linguistiques, elles peuvent également apporter des solutions multilingues qui soutiendront le marché unique numérique émergent en Europe. Toutefois, les spécialistes des technologies du langage consacrent environ 80 % de leur temps à nettoyer, organiser et collecter des ensembles de données parce que les données ne sont pas «prêtes à l’emploi». Le processus d’extraction-transformation-chargement, qui implique de relier des ensembles de données à des concepts existants, pourrait réduire cet effort. Toutefois, la technologie reste inexploitée. C’est là qu’intervient le projet Prêt-à-LLOD, financé par l’UE. «Nous cherchions à combiner des technologies de données liées avec des techniques de traitement du langage naturel (TLN) afin d’augmenter la disponibilité des technologies du langage pour les personnes et les entreprises en Europe», explique John McCrae, coordinateur du projet. Grâce aux technologies des données liées, il est plus facile de partager et de gérer les données sur le web, et donc d’améliorer leur disponibilité et leur accessibilité. Ainsi, le projet est similaire aux objectifs de l’initiative FAIR qui visent à accroître l’utilité des données», poursuit John McCrae.
Fournir une chaîne de valeur des données et des composants open-source clés
Le projet a développé une chaîne de valeur des données qui couvre tous les aspects du cycle de vie d’un ensemble de données et, notamment, la découverte, la transformation, la gestion (en particulier des licences), la liaison et l’application dans les flux de TLN. Ils ont également fourni cinq composants open-source clés qui soutiennent la chaîne de valeur des données envisagée par le projet. «Premièrement, le portail LingHub2 permet aux ressources linguistiques d’être découvertes en utilisant les principes des données liées et des méthodes de recherche, et il regroupe des données issues de nombreuses sources. Deuxièmement, nous avons développé Fintan, un nouveau moteur flexible pour la transformation des données présentées dans de nombreux formats en données liées», souligne John McCrae. Des outils de gestion politique des données qui permettent la combinaison de licences open-source à prévoir basées sur l’Open Digital Rights Language ont également été développés. En outre, plusieurs outils destinés à relier les ensembles de données à plusieurs niveaux, y compris la lexicalisation des ressources existantes, la liaison au niveau conceptuel et la liaison lexicale qui permettent aux ensembles de données d’être connectés et intégrés plus facilement, ont été conçus. «Nous avons développé Teanga, un outil de gestion du flux de travail qui permet d’utiliser différents composants et ensembles de données dans des flux définis avec des technologies telles que Docker et OpenAPI», ajoute John McCrae.
Ouvrir la voie aux pipelines de TLN flexibles
Ces outils ont été validés par des démonstrations avec les partenaires commerciaux du projet, y compris un nouveau système de dialogueur développé par Derilinx, des extensions à l’outil PoolParty populaire de la Semantic Web Company pour la gestion terminologique, de nouvelles méthodologies pour le TLN multilingue à la Semalytix, et des améliorations aux processus utilisés pour développer les dictionnaires à l’Oxford University Press, y compris l’Oxford English Dictionary. «Nous espérons que ce projet rendra davantage de données disponibles, améliorant la flexibilité et l’application des pipelines de TLN», conclut John McCrae. Un objectif particulier du projet est l’application des techniques de TLN aux langues minoritaires en Europe où les ressources ne sont pas suffisamment disponibles et où il est possible d’améliorer la situation de ces langues par la gestion des données et les outils de TLN développés au cours de ce projet.
Mots‑clés
Prêt-à-LLOD, TLN, technologies du langage, chaîne de valeur des données, technologies des données liées, composants open-source, traitement du langage naturel, marché unique numérique