Objectif
The aim of the EMIR project is to validate a linguistic and statistical approach for the indexation of free text and multilingual query of textual databases by the use of a prototype. The final goal is to provide the user with an opportunity to query in his own language text databases written in various languages. It will also make it possible to query simultaneously in one language databases containing texts in several different languages.
A feasibility study is being carried out into the automatic indexing of free text and the multilingual querying of text databases. At the end of the study, tools and utilities designed for such purposes will have been embodied in a demonstration prototype. To develop this, existing tools will be used to carry out such tasks as automatic indexing (based on statistical methods and using a linguistic treatment which employs morphological and syntactic analysis). The automatic indexing method produces, as part of the formatted database, a statistical model which can be used during the query answering phase to sort documents according to a relevance hierarchy. Monolingual queries in natural language can use a reformulation expert system which has at its disposal a large vocabulary stock. Work has started on an existing English/French prototype extending to an English/German pair which requires the development of an analyzer for German. The French/German pair will follow, resulting in a trilingual query system. Methods and tools could then be applied to other languages. Multilingual text databases will be employed.
A first prototype of the bilingual French English interrogation system has been developed. It is based on word for word translations.
A second prototype capable of taking multiunit words and expressions into account is currently in the experimental stage.
The final version of the bilingual prototype integrating both kinds of translations will be ready at the end of 1993. At the same time, a first version of the German monolingual prototype has been developed. It is based on a linguistic analysis integrating a morphological analysis including the treatment of 1-word compounds. This analysis is based on the full term dictionary. The syntactic analysis includes grammatical disambiguation and a simplified recognition of dependency relations.
The system developed within the project must be domain dependent. When processing a new domain, little work is needed to adapt the dictionaries and the user is helped by tools developed inside the project to perform this adaptation. More specifically, a semi-automatic method has been developed to extract compounds and their translations from texts that have already been translated.
In order to prove the generality of the approach, experimentation is done on three languages: English, French, and German. The English-French and French-German couples are currently under work. The German parser has been developed within the framework of the project. This parser specifically takes into account the splitting of compounds which is crucial for information retrieval systems.
Champ scientifique (EuroSciVoc)
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
- sciences naturelles informatique et science de l'information bases de données
- sciences naturelles informatique et science de l'information intelligence artificielle systèmes experts
- sciences naturelles mathématiques mathématiques appliquées statistique et probabilité
Vous devez vous identifier ou vous inscrire pour utiliser cette fonction
Nous sommes désolés... Une erreur inattendue s’est produite.
Vous devez être authentifié. Votre session a peut-être expiré.
Merci pour votre retour d'information. Vous recevrez bientôt un courriel confirmant la soumission. Si vous avez choisi d'être informé de l'état de la déclaration, vous serez également contacté lorsque celui-ci évoluera.
Programme(s)
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
Thème(s)
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Données non disponibles
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Appel à propositions
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
Données non disponibles
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
Régime de financement
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
Données non disponibles
Coordinateur
91191 Gif-sur-Yvette
France
Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.