Skip to main content
European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Ready-to-use Multilingual Linked Language Data for Knowledge Services across Sectors

Article Category

Article available in the following languages:

Promowanie wykorzystania technologii językowych

W ramach projektu finansowanego przez UE badacze zajęli się przygotowaniem do wykorzystania otwartych danych językowych, aby zagwarantować, że żaden mieszkaniec Europy nie zostanie pominięty w rewolucji cyfrowej.

Gospodarka cyfrowa icon Gospodarka cyfrowa
Społeczeństwo icon Społeczeństwo

Technologie językowe odgrywają ważną rolę w przełamywaniu barier językowych, promowaniu wielokulturowości i udostępnianiu wszystkim zdobyczy cyfrowej dekady Europy. Opracowywanie tych technologii wymaga gromadzenia olbrzymich zbiorów danych. Dzięki lepszemu dostępowi i wykorzystaniu zasobów językowych mogą one również doprowadzić do powstania wielojęzycznych rozwiązań, które przyczynią się do rozwoju jednolitego rynku cyfrowego w Europie. Eksperci zajmujący się technologiami językowymi spędzają blisko 80 % czasu pracy na czyszczeniu, porządkowaniu i gromadzeniu zbiorów danych, które nie są dostępne w formie gotowej do użycia. Proces ekstrakcji, przetwarzania oraz wykorzystywania danych, w ramach którego dochodzi do powiązania zbiorów danych z istniejącymi projektami, może zmniejszyć nakład pracy. Technologia ta pozostaje jednak niewykorzystana. To właśnie na tym obszarze skupił się zespół finansowanego ze środków Unii Europejskiej projektu Pret-a-LLOD. „Naszym celem było połączenie technologii danych powiązanych z technikami przetwarzania języka naturalnego, aby zwiększyć w ten sposób dostępność technologii językowych dla osób prywatnych i przedsiębiorstw w Europie”, wyjaśnia koordynator projektu John McCrae. Zastosowanie technologii danych powiązanych pozwala na łatwiejsze udostępnianie danych i zarządzanie nimi w sieci, a tym samym zwiększa ich dostępność. „W ten sposób cele naszego projektu są zbliżone do założeń inicjatywy FAIR, która ma na celu zwiększenie użyteczności danych”, zauważa McCrae.

Łańcuch wartości danych i otwarte oprogramowanie

W ramach projektu powstał łańcuch wartości danych, który obejmuje wszystkie aspekty cyklu życia zbiorów danych, a w szczególności ich gromadzenie, przetwarzanie, zarządzanie (zwłaszcza licencjami), a także łączenie i zastosowanie w procesach przetwarzania języka naturalnego. Badacze opracowali także pięć kluczowych komponentów open source, których celem jest wspieranie łańcucha wartości danych opracowanego w ramach projektu. „Pierwszym z nich jest portal LingHub2, który umożliwia odkrywanie zasobów językowych z wykorzystaniem zasad danych powiązanych oraz zapytań, a także gromadzenie danych ze zróżnicowanych źródeł. Drugim jest Fintan, nowatorski i elastyczny silnik pozwalający na przetwarzanie danych w wielu formatach w dane powiązane”, opisuje McCrae. W ramach projektu powstały także narzędzia do zarządzania danymi na podstawie zasad, które pozwalają na przewidywanie możliwych kombinacji licencji open source na podstawie danych zapisanych przy pomocy Open Digital Rights Language. Badacze opracowali także szereg narzędzi pozwalających na łączenie zbiorów danych na różnych poziomach, w tym leksykalizację istniejących zasobów oraz łączenie na poziomie pojęciowym i leksykalnym, które umożliwiają łatwiejsze łączenie i integrację zbiorów danych. „W ramach prac powstało również narzędzie Teanga, które służy do zarządzania procesami pracy i pozwala na wykorzystanie zróżnicowanych elementów i zbiorów danych w ramach procesów opartych na technologiach takich jak Docker czy OpenAPI”, dodaje McCrae.

Droga do elastycznych rozwiązań w zakresie przetwarzania języka naturalnego

Opracowane w ramach projektu narzędzia zostały zweryfikowane w ramach demonstracji zrealizowanych we współpracy z partnerami komercyjnymi projektu. Wśród nich można wymienić między innymi nowatorskiego chatbota opracowanego przez firmę Derilinx, rozszerzenia popularnego narzędzia PoolParty firmy Semantic Web Company do zarządzania terminologią, nowatorskie metodologie dla międzyjęzykowego przetwarzania języków naturalnych wykorzystywane przez firmę Semalytix, a także ulepszenia procesów wykorzystywanych do opracowania słowników przez wydawnictwo Oxford University Press, w tym Oxford English Dictionary. „Mamy nadzieję, że ten projekt przyczyni się do zwiększenia dostępności większej ilości danych, co pozwoli na bardziej elastyczne i szybsze zastosowanie rozwiązań w zakresie przetwarzania języka naturalnego”, podsumowuje McCrae. Jednym z kluczowych celów projektu jest stosowanie technik przetwarzania języka naturalnego do analizy języków mniejszościowych w Europie, w przypadku których ilość dostępnych zasobów jest ograniczona. Dzięki wykorzystaniu opracowanych w ramach projektu narzędzi do zarządzania danymi oraz ich przetwarzania sytuacja dotycząca tych języków może ulec znaczącej poprawie.

Słowa kluczowe

Pret-a-LLOD, przetwarzanie języka naturalnego, technologie językowe, łańcuch wartości danych, technologie danych powiązanych, komponenty open source, otwarte oprogramowanie, jednolity rynek cyfrowy

Znajdź inne artykuły w tej samej dziedzinie zastosowania