Skip to main content
Weiter zur Homepage der Europäischen Kommission (öffnet in neuem Fenster)
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS
Inhalt archiviert am 2024-06-18

Multilingual Lexicon Extraction from Comparable Corpora

Ziel

Given large collections of parallel (i.e. translated) texts, it is well-known how to, by successively applying a sentence- and a
word-alignment step, establish correspondences between words across languages. However, parallel texts are a scarce
resource for most language pairs involving lesser-used languages. On the other hand, human second language acquisition
seems not to require the reception of large amounts of translated texts, which indicates that there must be another way of
crossing the language barrier. Apparently, the human capabilities are based on looking at comparable resources, i.e. texts
or speech on related topics in different languages, which, however, are not translations of each other. Comparable (written
or spoken) corpora are far more common than parallel corpora, thus offering the chance to overcome the data acquisition
bottleneck. Despite its cognitive motivation, in the proposed project we will not attempt to simulate the complexities of
human second language acquisition, but will show that it is possible by purely technical means to automatically extract
information on word- and multiword-translations from comparable corpora. The aim is to push the boundaries of current
approaches, which typically utilize correlations between co-occurrence patterns across languages, in several ways: 1)
Eliminating the need for initial lexicons by using a bootstrapping approach which only requires a few seed translations. 2)
Implementing a new methodology which first establishes alignments between comparable documents across languages,
and then computes cross-lingual alignments between words and multiword-units. 3) Improving the quality of computed word
translations by applying an interlingua approach, which, by relying on several pivot languages, allows a highly effective
multi-dimensional cross-check. 4) We will show that, by looking at foreign citations, language translations can even be
derived from a single monolingual text corpus.

Wissenschaftliches Gebiet (EuroSciVoc)

CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Sie müssen sich anmelden oder registrieren, um diese Funktion zu nutzen

Programm/Programme

Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

Thema/Themen

Aufforderungen zur Einreichung von Vorschlägen sind nach Themen gegliedert. Ein Thema definiert einen bestimmten Bereich oder ein Gebiet, zu dem Vorschläge eingereicht werden können. Die Beschreibung eines Themas umfasst seinen spezifischen Umfang und die erwarteten Auswirkungen des finanzierten Projekts.

Aufforderung zur Vorschlagseinreichung

Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.

FP7-PEOPLE-2013-CIG
Andere Projekte für diesen Aufruf anzeigen

Finanzierungsplan

Finanzierungsregelung (oder „Art der Maßnahme“) innerhalb eines Programms mit gemeinsamen Merkmalen. Sieht folgendes vor: den Umfang der finanzierten Maßnahmen, den Erstattungssatz, spezifische Bewertungskriterien für die Finanzierung und die Verwendung vereinfachter Kostenformen wie Pauschalbeträge.

MC-CIG - Support for training and career development of researcher (CIG)

Koordinator

JOHANNES GUTENBERG-UNIVERSITAT MAINZ
EU-Beitrag
€ 100 000,00
Adresse
SAARSTRASSE 21
55122 MAINZ
Deutschland

Auf der Karte ansehen

Region
Rheinland-Pfalz Rheinhessen-Pfalz Mainz, Kreisfreie Stadt
Aktivitätstyp
Higher or Secondary Education Establishments
Links
Gesamtkosten

Die Gesamtkosten, die dieser Organisation durch die Beteiligung am Projekt entstanden sind, einschließlich der direkten und indirekten Kosten. Dieser Betrag ist Teil des Gesamtbudgets des Projekts.

Keine Daten
Mein Booklet 0 0