CORDIS - Résultats de la recherche de l’UE
CORDIS

Workflows for the Large-Scale Collection and Transference of Knowledge across Languages: Using Natural Language Processing to Produce High-Quality Contents with Language Learners

Description du projet

Un nouveau flux de travail à transfert multilingue pour un contenu à grande échelle

La traduction d’une langue est une tâche complexe. Il est difficile de trouver un équivalent direct lorsque nous transférons le contenu d’une langue vers une autre, chaque langue ayant son propre système pour transmettre des concepts. Le projet WIKOLLECT, financé par l’UE, étudiera cette problématique en s’appuyant sur une complémentarité entre le traitement naturel des langues, l’apprentissage des langues et l’externalisation ouverte. Il développera un flux de travail spécifique pour le transfert à grande échelle de contenu de qualité élevée en plusieurs langues. Il comporte quatre étapes cycliques pour identifier de manière automatique le contenu de la langue source absent de la langue cible, et générer de potentielles traductions. Appliqué en italien et en allemand sur Wiktionary, le dictionnaire multilingue en ligne au contenu gratuit, le flux de travail de ce projet promouvra la réutilisation équitable de contenu en plusieurs langues, et facilitera le transfert de connaissances.

Objectif

WiKollect aims at creating a workflow for the large-scale transference of high-quality contents across languages. The workflow is divided in four cyclic steps. In step (i) an automatic model will identify contents available in a document in language A which are missing in a document, on the same topic, in language B. In step (ii) candidates to fill the gaps in the document in language B will be automatically generated. In step (iii) such candidates will be subject to manual evaluation by language learners. In step (iv) the contents identified as high-quality will be promoted to fill the gaps in the document in language B. WiKollect will take advantage of the barely-exploited synergy among natural language processing, language learning, and crowdsourcing. To address the different research challenges posed by the workflow design and implementation, it will create an innovative and re-usable hybrid intelligence architecture combining (a) artificial intelligence —such as machine learning and natural language processing— to identify contents worth transferring across languages and generate potential translations and (b) human intelligence —by means of implicit crowdsourcing— relying on a crowd of language learners to flag good contents. WiKollect will create different by-products in addition to the research products that will be generated by addressing each step in the four-step workflow. Language learning exercises on specific topics and complexity levels will be generated. The fair re-use of contents across languages will be promoted with the mass production of high-quality contents. During the MSC period, WiKollect will target the generation of Wiktionary contents in Italian and German. Still, the workflow is flexible and extendable and can be applied to other documents (e.g. Wikipedia articles, news) and languages in the near future.

Mots‑clés

Coordinateur

ACCADEMIA EUROPEA DI BOLZANO
Contribution nette de l'UE
€ 183 473,28
Adresse
VIALE DRUSO 1
39100 Bolzano
Italie

Voir sur la carte

Région
Nord-Est Provincia Autonoma di Bolzano/Bozen Bolzano-Bozen
Type d’activité
Research Organisations
Liens
Coût total
€ 183 473,28