Skip to main content
European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Information Extraction for Everyone

Opis projektu

Komputery uczą się naturalnego języka człowieka

Komputery są dość inteligentne, ale mają swoje ograniczenia, szczególnie jeśli chodzi o przetwarzanie naturalnego języka. Przetwarzanie języka obejmuje bowiem abstrakcyjne i skomplikowane reguły przekazywania informacji, co utrudnia komputerowi rozszyfrowanie i zrozumienie ludzkich języków. Autorzy współfinansowanego ze środków UE projektu iEXTRACT dokonają przeglądu metod pozyskiwania informacji opartych na regułach w świetle postępów w przetwarzaniu języka naturalnego i uczeniu maszynowym. Wyłapywanie informacji to wspólny wysiłek człowieka i komputera, w ramach którego użytkownik zapewnia wiedzę specyficzną dla danej dziedziny, a system rozwiązuje niezależne od tej dziedziny złożoności językowe, ostatecznie pozwalając użytkownikowi wyszukiwać nieustrukturyzowane teksty. Głównym celem projektu jest pomoc ekspertom w danej dziedzinie, na przykład prawnikom i naukowcom, poprzez umożliwienie im przetwarzania dużych ilości danych i rozwoju ich profesji.

Cel

Staggering amounts of information are stored in natural language documents, rendering them unavailable to data-science techniques. Information Extraction (IE), a subfield of Natural Language Processing (NLP), aims to automate the extraction of structured information from text, yielding datasets that can be queried, analyzed and combined to provide new insights and drive research forward.

Despite tremendous progress in NLP, IE systems remain mostly inaccessible to non-NLP-experts who can greatly benefit from them. This stems from the current methods for creating IE systems: the dominant machine-learning (ML) approach requires technical expertise and large amounts of annotated data, and does not provide the user control over the extraction process. The previously dominant rule-based approach unrealistically requires the user to anticipate and deal with the nuances of natural language.

I aim to remedy this situation by revisiting rule-based IE in light of advances in NLP and ML. The key idea is to cast IE as a collaborative human-computer effort, in which the user provides domain-specific knowledge, and the system is in charge of solving various domain-independent linguistic complexities, ultimately allowing the user to query
unstructured texts via easily structured forms.

More specifically, I aim develop:
(a) a novel structured representation that abstracts much of the complexity of natural language;
(b) algorithms that derive these representations from texts;
(c) an accessible rule language to query this representation;
(d) AI components that infer the user extraction intents, and based on them promote relevant examples and highlight extraction cases that require special attention.

The ultimate goal of this project is to democratize NLP and bring advanced IE capabilities directly to the hands of
domain-experts: doctors, lawyers, researchers and scientists, empowering them to process large volumes of data and
advance their profession.

Słowa kluczowe

System finansowania

ERC-STG - Starting Grant

Instytucja przyjmująca

BAR ILAN UNIVERSITY
Wkład UE netto
€ 1 499 354,00
Adres
BAR ILAN UNIVERSITY CAMPUS
52900 Ramat Gan
Izrael

Zobacz na mapie

Rodzaj działalności
Higher or Secondary Education Establishments
Linki
Koszt całkowity
€ 1 499 354,00

Beneficjenci (1)