Skip to main content
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
Contenu archivé le 2022-12-23

A Georgian, Russian, English, German Multilingual valency lexicon for natural language processing

Objectif

Language engineering (LE) needs lexicons. Ideally, they specify the subcategorisation possibilities and thematic roles for verbs, and these specifications match the verbs' patterns of use in text corpora. Multilingual LE needs multilingual resources, where information for a number of languages is expressed in a co-ordinated way.

Currently there are no lexicons suitable for language engineering ('computational lexicons') for Georgian, and very few in the public domain for Russian. For English and German, much more is available, but still little that ties the lexicons to corpus evidence. Multilingual resources are very rare outside specialised domains, substantially because of the lack of theoretical understanding of how they might be coherently organised.

The GREG project will address all three issues. The first, by producing, and placing in the public domain, substantial computational lexicons of Georgian and Russian verbs (alongside their English and German counterparts). The second, by extending current work on the automatic acquisition of valency information from text corpora. And the third, by establishing the GREG lexicon as a multilingual resource and using it as a testbed for current theoretical research into multilingual representation.

The project brings together partners with complementary expertise. The Georgian Academy of Sciences and Tbilisi State University contribute in-depth knowledge of Georgian, in itself and in contrast to the other languages. The University of Stuttgart is a world leader in corpus processing for lexicographical purposes, and the University of Brighton, in formalisms for lexical information.

The languages for the project have been selected because of their salience to Georgia: English, for its international role; German, for the longstanding special relationship between Germany and Georgia; and Russian, because it is Georgia's largest trading partner and the most widely-spoken foreign language.

The scientific motivations to the project are fourfold: to deepen our understanding of the Georgian verbal system, and its relation to Indo-European systems, through detailed, formal, lexicological analysis; to explore relations between text corpora and lexical entries; to explore semantic case, and its relations to syntactic subcategorisation, using computer-based methods across large numbers of verbs; and to explore models of organisation for multilingual lexicons.

The work done in the project will be firstly, selecting a set of 1,000 Georgian verbs and their Russian, English and German counterparts; then identifying the subcategorisation patterns each verb appears in, associating the syntactic constituents with semantic cases (such as SOURCE, AGENT, GOAL), and linking translation equivalents across the languages.

The work will use a combination of existing dictionaries, corpus-analysis techniques and corpus-based and traditional lexicography. The lexicography will take place in Georgia, with Stuttgart guiding the corpus-based work. Brighton will work particularly on a formal framework for the project that makes it possible to express generalisations that apply to classes of verbs, across languages. This will ease the burden of the lexicography and produce a more succinct, usable resource.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Ce projet n'a pas encore été classé par EuroSciVoc.
Proposez les domaines scientifiques qui vous semblent les plus pertinents et aidez-nous à améliorer notre service de classification.

Vous devez vous identifier ou vous inscrire pour utiliser cette fonction

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Données non disponibles

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

Données non disponibles

Coordinateur

Universität Stuttgart
Contribution de l’UE
Aucune donnée
Adresse
Breitwiesenstr. 20-22
70565 Stuttgart
Allemagne

Voir sur la carte

Coût total

Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.

Aucune donnée

Participants (3)

Mon livret 0 0