Skip to main content
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français fr
CORDIS - Résultats de la recherche de l’UE
CORDIS
Contenu archivé le 2022-12-23

GRAMLEX

Objectif



The first step in processing a text or corpus in any natural language is usually lexical tagging. It is probably the most basic and the most general-purpose operation in natural language processing. The quality and even the feasibility of further treatments depend on the quality of lexical analysis. The data and algorithms needed to achieve this task with a correct accuracy on unrestricted text include: forms or lemmata with a formal characterization of their morphological variations; the relevant lexical are morphological ones, i.e. homographs are represented in one lexical unit; characterization of their morphological variations; produce tags that encode their lexical category.

There is thus a strong need for electronic language resources and engineering standards in the morphology of European languages. The aim of GRAMLEX is to facilitate the initiation, coordination and standardisation of the construction of morphological dictionary packages for the essential part of several European languages, including detailed formal description of the morphology of the languages. The major challenges in such an enterprise are to give the description the largest possible coverage, in order to be able to process unrestricted text; to share as much as possible of the formats, methods and algorithms; and to improve time and space efficiency of programs.

Our approach is to tackle in parallel several aspects of the problem:
The contents, form and use of morphological lexical data. The form of lexical data will be examined and evaluated according to several criteria, including their use for generation and recognition and their interest for standardisation. The contents of dictionaries will be confronted with text corpora. The analysis of tokens not recognized will bring about feedback on that contents. In order to take account of the specific features of technical texts (e.g. in terminology, multilingual structuration of dictionaries is by nature easier than in general language), the terminology of telecommunications was chosen as an application field. The use of grammatical information for lexical disambiguation will be tested. A feedback on the grammatical contents of the tags is expected.

The four languages of the project, namely French, Hungarian, Italian and Polish, make up a benchmark for the coordination and standardization of methods and data in closely related, less closely related, and unrelated languages. The co-operation with the Hungarian partners will be a first tentative of comparing RELEX methods, initially devised for Indo-European languages, with methods used for a non Indo-European language with a very different morphological system.

The project will produce lexical resources designed for computer applications on unrestricted text, including technical texts. These resources will be available for research projects and other activities. By increasing their know-how and knowledge in lexical resources, the participants will promote the commercial interest of such resources.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Ce projet n'a pas encore été classé par EuroSciVoc.
Proposez les domaines scientifiques qui vous semblent les plus pertinents et aidez-nous à améliorer notre service de classification.

Vous devez vous identifier ou vous inscrire pour utiliser cette fonction

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Données non disponibles

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

Données non disponibles

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

CSC - Cost-sharing contracts

Coordinateur

Association pour le Traitement Informatique des Langages Formels et Naturels (ASSTRIL)
Contribution de l’UE
Aucune donnée
Adresse
Place Jussieu 2
75251 Paris Cedex 5
France

Voir sur la carte

Coût total

Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.

Aucune donnée

Participants (5)

Mon livret 0 0