Promowanie wykorzystania technologii językowych

W ramach projektu finansowanego przez UE badacze zajęli się przygotowaniem do wykorzystania otwartych danych językowych, aby zagwarantować, że żaden mieszkaniec Europy nie zostanie pominięty w rewolucji cyfrowej.

Gospodarka cyfrowa

Społeczeństwo

Technologie językowe(odnośnik otworzy się w nowym oknie) odgrywają ważną rolę w przełamywaniu barier językowych, promowaniu wielokulturowości i udostępnianiu wszystkim zdobyczy cyfrowej dekady Europy. Opracowywanie tych technologii wymaga gromadzenia olbrzymich zbiorów danych. Dzięki lepszemu dostępowi i wykorzystaniu zasobów językowych mogą one również doprowadzić do powstania wielojęzycznych rozwiązań, które przyczynią się do rozwoju jednolitego rynku cyfrowego w Europie. Eksperci zajmujący się technologiami językowymi spędzają blisko 80 % czasu pracy na czyszczeniu, porządkowaniu i gromadzeniu zbiorów danych, które nie są dostępne w formie gotowej do użycia. Proces ekstrakcji, przetwarzania oraz wykorzystywania danych, w ramach którego dochodzi do powiązania zbiorów danych z istniejącymi projektami, może zmniejszyć nakład pracy. Technologia ta pozostaje jednak niewykorzystana. To właśnie na tym obszarze skupił się zespół finansowanego ze środków Unii Europejskiej projektu Pret-a-LLOD(odnośnik otworzy się w nowym oknie). „Naszym celem było połączenie technologii danych powiązanych z technikami przetwarzania języka naturalnego, aby zwiększyć w ten sposób dostępność technologii językowych dla osób prywatnych i przedsiębiorstw w Europie”, wyjaśnia koordynator projektu John McCrae. Zastosowanie technologii danych powiązanych pozwala na łatwiejsze udostępnianie danych i zarządzanie nimi w sieci, a tym samym zwiększa ich dostępność. „W ten sposób cele naszego projektu są zbliżone do założeń inicjatywy FAIR(odnośnik otworzy się w nowym oknie), która ma na celu zwiększenie użyteczności danych”, zauważa McCrae.

Łańcuch wartości danych i otwarte oprogramowanie

W ramach projektu powstał łańcuch wartości danych, który obejmuje wszystkie aspekty cyklu życia zbiorów danych, a w szczególności ich gromadzenie, przetwarzanie, zarządzanie (zwłaszcza licencjami), a także łączenie i zastosowanie w procesach przetwarzania języka naturalnego. Badacze opracowali także pięć kluczowych komponentów open source, których celem jest wspieranie łańcucha wartości danych opracowanego w ramach projektu. „Pierwszym z nich jest portal LingHub2, który umożliwia odkrywanie zasobów językowych z wykorzystaniem zasad danych powiązanych oraz zapytań, a także gromadzenie danych ze zróżnicowanych źródeł. Drugim jest Fintan, nowatorski i elastyczny silnik pozwalający na przetwarzanie danych w wielu formatach w dane powiązane”, opisuje McCrae. W ramach projektu powstały także narzędzia do zarządzania danymi na podstawie zasad, które pozwalają na przewidywanie możliwych kombinacji licencji open source na podstawie danych zapisanych przy pomocy Open Digital Rights Language. Badacze opracowali także szereg narzędzi pozwalających na łączenie zbiorów danych na różnych poziomach, w tym leksykalizację istniejących zasobów oraz łączenie na poziomie pojęciowym i leksykalnym, które umożliwiają łatwiejsze łączenie i integrację zbiorów danych. „W ramach prac powstało również narzędzie Teanga, które służy do zarządzania procesami pracy i pozwala na wykorzystanie zróżnicowanych elementów i zbiorów danych w ramach procesów opartych na technologiach takich jak Docker czy OpenAPI”, dodaje McCrae.

Droga do elastycznych rozwiązań w zakresie przetwarzania języka naturalnego

Opracowane w ramach projektu narzędzia zostały zweryfikowane w ramach demonstracji zrealizowanych we współpracy z partnerami komercyjnymi projektu. Wśród nich można wymienić między innymi nowatorskiego chatbota opracowanego przez firmę Derilinx, rozszerzenia popularnego narzędzia PoolParty firmy Semantic Web Company do zarządzania terminologią, nowatorskie metodologie dla międzyjęzykowego przetwarzania języków naturalnych wykorzystywane przez firmę Semalytix, a także ulepszenia procesów wykorzystywanych do opracowania słowników przez wydawnictwo Oxford University Press, w tym Oxford English Dictionary. „Mamy nadzieję, że ten projekt przyczyni się do zwiększenia dostępności większej ilości danych, co pozwoli na bardziej elastyczne i szybsze zastosowanie rozwiązań w zakresie przetwarzania języka naturalnego”, podsumowuje McCrae. Jednym z kluczowych celów projektu jest stosowanie technik przetwarzania języka naturalnego do analizy języków mniejszościowych w Europie, w przypadku których ilość dostępnych zasobów jest ograniczona. Dzięki wykorzystaniu opracowanych w ramach projektu narzędzi do zarządzania danymi oraz ich przetwarzania sytuacja dotycząca tych języków może ulec znaczącej poprawie.

Słowa kluczowe

Informacje na temat projektu

Pret-a-LLOD

Identyfikator umowy o grant: 825182

DOI

10.3030/825182

Projekt został zamknięty

Data podpisania przez KE 14 Listopada 2018

Data rozpoczęcia 1 Stycznia 2019

Data zakończenia 30 Czerwca 2022

Finansowanie w ramach

INDUSTRIAL LEADERSHIP - Leadership in enabling and industrial technologies - Information and Communication Technologies (ICT)

Koszt całkowity

€ 2 997 181,25

Wkład UE

€ 2 997 181,25

2 997 181,25

Koordynowany przez

UNIVERSITY OF GALWAY
Ireland

Łańcuch wartości danych i otwarte oprogramowanie

Droga do elastycznych rozwiązań w zakresie przetwarzania języka naturalnego

Słowa kluczowe

Pobierz Pobierz zawartość strony