Skip to main content
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
Contenu archivé le 2024-06-18

Multilingual Lexicon Extraction from Comparable Corpora

Objectif

Given large collections of parallel (i.e. translated) texts, it is well-known how to, by successively applying a sentence- and a
word-alignment step, establish correspondences between words across languages. However, parallel texts are a scarce
resource for most language pairs involving lesser-used languages. On the other hand, human second language acquisition
seems not to require the reception of large amounts of translated texts, which indicates that there must be another way of
crossing the language barrier. Apparently, the human capabilities are based on looking at comparable resources, i.e. texts
or speech on related topics in different languages, which, however, are not translations of each other. Comparable (written
or spoken) corpora are far more common than parallel corpora, thus offering the chance to overcome the data acquisition
bottleneck. Despite its cognitive motivation, in the proposed project we will not attempt to simulate the complexities of
human second language acquisition, but will show that it is possible by purely technical means to automatically extract
information on word- and multiword-translations from comparable corpora. The aim is to push the boundaries of current
approaches, which typically utilize correlations between co-occurrence patterns across languages, in several ways: 1)
Eliminating the need for initial lexicons by using a bootstrapping approach which only requires a few seed translations. 2)
Implementing a new methodology which first establishes alignments between comparable documents across languages,
and then computes cross-lingual alignments between words and multiword-units. 3) Improving the quality of computed word
translations by applying an interlingua approach, which, by relying on several pivot languages, allows a highly effective
multi-dimensional cross-check. 4) We will show that, by looking at foreign citations, language translations can even be
derived from a single monolingual text corpus.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Vous devez vous identifier ou vous inscrire pour utiliser cette fonction

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

FP7-PEOPLE-2013-CIG
Voir d’autres projets de cet appel

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

MC-CIG - Support for training and career development of researcher (CIG)

Coordinateur

JOHANNES GUTENBERG-UNIVERSITAT MAINZ
Contribution de l’UE
€ 100 000,00
Adresse
SAARSTRASSE 21
55122 MAINZ
Allemagne

Voir sur la carte

Région
Rheinland-Pfalz Rheinhessen-Pfalz Mainz, Kreisfreie Stadt
Type d’activité
Higher or Secondary Education Establishments
Liens
Coût total

Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.

Aucune donnée
Mon livret 0 0