Objectif
The first step in processing a text or corpus in any natural language is usually lexical tagging. It is probably the most basic and the most general-purpose operation in natural language processing. The quality and even the feasibility of further treatments depend on the quality of lexical analysis. The data and algorithms needed to achieve this task with a correct accuracy on unrestricted text include: forms or lemmata with a formal characterization of their morphological variations; the relevant lexical are morphological ones, i.e. homographs are represented in one lexical unit; characterization of their morphological variations; produce tags that encode their lexical category.
There is thus a strong need for electronic language resources and engineering standards in the morphology of European languages. The aim of GRAMLEX is to facilitate the initiation, coordination and standardisation of the construction of morphological dictionary packages for the essential part of several European languages, including detailed formal description of the morphology of the languages. The major challenges in such an enterprise are to give the description the largest possible coverage, in order to be able to process unrestricted text; to share as much as possible of the formats, methods and algorithms; and to improve time and space efficiency of programs.
Our approach is to tackle in parallel several aspects of the problem:
The contents, form and use of morphological lexical data. The form of lexical data will be examined and evaluated according to several criteria, including their use for generation and recognition and their interest for standardisation. The contents of dictionaries will be confronted with text corpora. The analysis of tokens not recognized will bring about feedback on that contents. In order to take account of the specific features of technical texts (e.g. in terminology, multilingual structuration of dictionaries is by nature easier than in general language), the terminology of telecommunications was chosen as an application field. The use of grammatical information for lexical disambiguation will be tested. A feedback on the grammatical contents of the tags is expected.
The four languages of the project, namely French, Hungarian, Italian and Polish, make up a benchmark for the coordination and standardization of methods and data in closely related, less closely related, and unrelated languages. The co-operation with the Hungarian partners will be a first tentative of comparing RELEX methods, initially devised for Indo-European languages, with methods used for a non Indo-European language with a very different morphological system.
The project will produce lexical resources designed for computer applications on unrestricted text, including technical texts. These resources will be available for research projects and other activities. By increasing their know-how and knowledge in lexical resources, the participants will promote the commercial interest of such resources.
Champ scientifique (EuroSciVoc)
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
Ce projet n'a pas encore été classé par EuroSciVoc.
Proposez les domaines scientifiques qui vous semblent les plus pertinents et aidez-nous à améliorer notre service de classification.
Vous devez vous identifier ou vous inscrire pour utiliser cette fonction
Programme(s)
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
Thème(s)
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Données non disponibles
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Appel à propositions
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
Données non disponibles
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
Régime de financement
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
Coordinateur
75251 Paris Cedex 5
France
Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.