Skip to main content
Vai all'homepage della Commissione europea (si apre in una nuova finestra)
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
Contenuto archiviato il 2024-06-18

Index based Statistical Analysis of Large Text Corpora

Obiettivo

The statistical analysis of large text corpora is a fundamental method for gaining insights into the structure of language, e.g. for grammar development, machine translation, terminology and named entity extraction, text correction, semantic text analysis, and others. Progress in these fields helps to improve related applications in information science (search engine technology) and many other text oriented disciplines.
The core contribution of this project is a new methodology aimed at fundamentally improving statistical analysis of large text corpora. A weakness of current methods in corpus analysis is insufficient use of contextual information. Properly understanding the role, function and meaning of a phrase or word (which is important for many applications, e.g. for translation, search, etc.) is often only possible when taking sentence/paragraph contexts into account. We want to develop and study a new representation of corpora which is superior to present formats in three respects. Most importantly, it offers a much better use of contextual information. At the same time it helps to better distinguish between arbitrary and meaningful parts of text and gives hints on how to compose/decompose phrases. With these properties, the new representation gives a basis for fundamentally improving statistical analysis of corpora. The new representation is derived from a special text index structure which gives immediate access to contexts of any size. The index imposes a natural graph structure on the the phrases in the corpus, which implies that interesting graph-based statistical methods can be applied. Further more it can be efficiently constructed and updated in practice.
To practically demonstrate the large potential of the new methodology in NLP we will concentrate on the machine translation where we expect to achieve improved translation methods for words and phrases.

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

FP7-PEOPLE-2013-IEF
Vedi altri progetti per questo bando

Meccanismo di finanziamento

Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.

MC-IEF - Intra-European Fellowships (IEF)

Coordinatore

LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN
Contributo UE
€ 161 968,80
Indirizzo
GESCHWISTER SCHOLL PLATZ 1
80539 MUNCHEN
Germania

Mostra sulla mappa

Regione
Bayern Oberbayern München, Kreisfreie Stadt
Tipo di attività
Higher or Secondary Education Establishments
Collegamenti
Costo totale

I costi totali sostenuti dall’organizzazione per partecipare al progetto, compresi i costi diretti e indiretti. Questo importo è un sottoinsieme del bilancio complessivo del progetto.

Nessun dato
Il mio fascicolo 0 0