Skip to main content
European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Workflows for the Large-Scale Collection and Transference of Knowledge across Languages: Using Natural Language Processing to Produce High-Quality Contents with Language Learners

Descrizione del progetto

Un nuovo flusso di lavoro per il trasferimento translinguistico di contenuti su larga scala

La traduzione linguistica è un’impresa complessa. Quando si trasferisce del contenuto da una lingua a un’altra, trovare un equivalente per ciascuna parola è complicato in quanto ogni lingua ha il proprio sistema per trasmettere i concetti. Il progetto WIKOLLECT, finanziato dall’UE, approfondirà questo tema basandosi su una sinergia tra l’elaborazione del linguaggio naturale, l’apprendimento delle lingue e il crowdsourcing. Il progetto svilupperà uno speciale flusso di lavoro per il trasferimento su larga scala di contenuto ad alta qualità tra diverse lingue, che include quattro fasi cicliche volte a individuare automaticamente contenuti nella lingua di partenza che mancano nella lingua d’arrivo e generare possibili traduzioni. Applicato in italiano e tedesco al Wikizionario, il dizionario online multilingue a contenuto libero, questo flusso di lavoro del progetto promuoverà il riutilizzo equo dei contenuti tra varie lingue e faciliterà il trasferimento delle conoscenze.

Obiettivo

WiKollect aims at creating a workflow for the large-scale transference of high-quality contents across languages. The workflow is divided in four cyclic steps. In step (i) an automatic model will identify contents available in a document in language A which are missing in a document, on the same topic, in language B. In step (ii) candidates to fill the gaps in the document in language B will be automatically generated. In step (iii) such candidates will be subject to manual evaluation by language learners. In step (iv) the contents identified as high-quality will be promoted to fill the gaps in the document in language B. WiKollect will take advantage of the barely-exploited synergy among natural language processing, language learning, and crowdsourcing. To address the different research challenges posed by the workflow design and implementation, it will create an innovative and re-usable hybrid intelligence architecture combining (a) artificial intelligence —such as machine learning and natural language processing— to identify contents worth transferring across languages and generate potential translations and (b) human intelligence —by means of implicit crowdsourcing— relying on a crowd of language learners to flag good contents. WiKollect will create different by-products in addition to the research products that will be generated by addressing each step in the four-step workflow. Language learning exercises on specific topics and complexity levels will be generated. The fair re-use of contents across languages will be promoted with the mass production of high-quality contents. During the MSC period, WiKollect will target the generation of Wiktionary contents in Italian and German. Still, the workflow is flexible and extendable and can be applied to other documents (e.g. Wikipedia articles, news) and languages in the near future.

Parole chiave

Coordinatore

ACCADEMIA EUROPEA DI BOLZANO
Contribution nette de l'UE
€ 183 473,28
Indirizzo
VIALE DRUSO 1
39100 Bolzano
Italia

Mostra sulla mappa

Regione
Nord-Est Provincia Autonoma di Bolzano/Bozen Bolzano-Bozen
Tipo di attività
Research Organisations
Collegamenti
Costo totale
€ 183 473,28