Skip to main content
Weiter zur Homepage der Europäischen Kommission (öffnet in neuem Fenster)
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS
Inhalt archiviert am 2024-06-18

The Automatic Generation of Lexical Databases Analogous to WordNet

Ziel

WordNet is a lexical database of English where words are grouped into sets of synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. WordNet has turned out to be an indispensable resource in the processing of natural language, and based on its model similar lexical databases were created for many other languages.

However, constructing such databases takes many years of work and is very costly. On the other hand, methods for the automatic identification of semantically related words based on large text corpora have reached a considerable degree of maturity, with the results coming close to native speakers’ performance. The proposed project aims at further refining and extending these approaches, thereby making it possible to fully automatically generate a resource similar to WordNet. The developed system will be largely language independent and is to be applied to four European languages, namely English, French, German, and Spanish. The resulting databases will be made freely available on the internet.

This is an outline of the proposed methodology: Starting from a part-of-speech tagged corpus, various methods for computing related words, such as syntax-based or utilizing latent semantic analysis, are applied and the results are systematically compared. The quality is evaluated by comparing the simulation results to a recently published data set comprising the 200,000 human similarity judgments from the Princeton Evocation project, rather than to the well established but inadequate 80 item TOEFL dataset. To identify synsets, an algorithm for unsupervised word sense induction is applied, and each word in the vocabulary is assigned to one or (if ambiguous) several of the synsets. Finally, to determine the relations between words (e.g. synonymy, hyponymy, holonymy, meronymy), an adapted version of Peter Turney’s approach for computing relational similarities is developed and applied.

Wissenschaftliches Gebiet (EuroSciVoc)

CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht. Siehe: Das European Science Vocabulary.

Sie müssen sich anmelden oder registrieren, um diese Funktion zu nutzen

Programm/Programme

Mehrjährige Finanzierungsprogramme, in denen die Prioritäten der EU für Forschung und Innovation festgelegt sind.

Thema/Themen

Aufforderungen zur Einreichung von Vorschlägen sind nach Themen gegliedert. Ein Thema definiert einen bestimmten Bereich oder ein Gebiet, zu dem Vorschläge eingereicht werden können. Die Beschreibung eines Themas umfasst seinen spezifischen Umfang und die erwarteten Auswirkungen des finanzierten Projekts.

Aufforderung zur Vorschlagseinreichung

Verfahren zur Aufforderung zur Einreichung von Projektvorschlägen mit dem Ziel, eine EU-Finanzierung zu erhalten.

FP7-PEOPLE-2010-IEF
Andere Projekte für diesen Aufruf anzeigen

Finanzierungsplan

Finanzierungsregelung (oder „Art der Maßnahme“) innerhalb eines Programms mit gemeinsamen Merkmalen. Sieht folgendes vor: den Umfang der finanzierten Maßnahmen, den Erstattungssatz, spezifische Bewertungskriterien für die Finanzierung und die Verwendung vereinfachter Kostenformen wie Pauschalbeträge.

MC-IEF - Intra-European Fellowships (IEF)

Koordinator

UNIVERSITE D'AIX MARSEILLE
EU-Beitrag
€ 258 475,00
Adresse
BOULEVARD CHARLES LIVON 58 LE PHARO
13284 Marseille
Frankreich

Auf der Karte ansehen

Region
Provence-Alpes-Côte d’Azur Provence-Alpes-Côte d’Azur Bouches-du-Rhône
Aktivitätstyp
Higher or Secondary Education Establishments
Links
Gesamtkosten

Die Gesamtkosten, die dieser Organisation durch die Beteiligung am Projekt entstanden sind, einschließlich der direkten und indirekten Kosten. Dieser Betrag ist Teil des Gesamtbudgets des Projekts.

Keine Daten
Mein Booklet 0 0