Internetowa baza danych językowych i narzędzia do przetwarzania
Język jest tym, co odróżnia ludzi od zwierząt i innych organizmów żywych. Zrozumienie struktury, stosowania i ewolucji języka i mowy pozwala badać zagadnienia tak zróżnicowane, jak schematy historycznej migracji populacji oraz kryteria do opracowywania wyszukiwarek internetowych. Przetwarzanie języka i mowy to dziedzina multidyscyplinarna, która obejmuje nie tylko lingwistykę, ale i psychologię, przetwarzanie neuralne oraz poznanie, nauki komputerowe, inżynierię elektryczną i komputerową, inżynierię biomedyczną i matematykę. Europejscy specjaliści w dziedzinie nauk humanistycznych i społecznych (HSS) zainicjowali projekt "Wspólne zasoby językowe i infrastruktura technologiczna" (Clarin), aby opracować ujednoliconą infrastrukturę w zakresie danych i narzędzi językowych. Głównym celem nie było zgromadzenie nowej wiedzy. Zespół projektowy skupił się raczej na tym, by oprzeć się na bogactwie dostępnych już zasobów krajowych i europejskich. Celem było położenie fundamentów pod platformę, która zunifikuje istniejące dane i narzędzia do wspólnego użytku dostępne dla całej społeczności badawczej. Zaprojektowano rozproszoną architekturę danych, aby udostępnić badaczom usługi internetowe, jak również umożliwić użytkownikom niewyspecjalizowanym wykonanie złożonych zadać w oparciu o liczne narzędzia do przetwarzania języka i mowy opracowane na przestrzeni ubiegłych lat. Powstało wirtualne obserwatorium językowe (VLO, http://www.clarin.eu/vlo/) które udostępnia przeanalizowane i podsumowane dane na temat wszystkich zasobów i narzędzi językowych zebranych przez partnerów projektu Clarin. Wiele społeczności HSS nie jest świadomych istnienia narzędzi i technologii do przetwarzania lingwistycznego, jako że dawniej była to dziedzina mniej rozwinięta technologicznie. Ważnym wkładem projektu Clarin jest budowanie mostów między takimi właśnie społecznościami. Poza względami technicznymi, projekt Clarin zajął się także kwestiami przyszłego zarządzania i finansowania, łącznie z badaniem dopuszczalnych modeli prawnych, finansowych i organizacyjnych. Partnerzy projektu z powodzeniem zmobilizowali znaczną społeczność badawczą HSS do położenia podwalin pod unifikację infrastruktury obejmującej zasoby i narzędzia językowe. Dostęp do tak ogromnej różnorodności danych i narzędzi powinien pomóc naukowcom stawiać te same stare pytania, ale w nowy sposób. Ponadto naukowcy będą mogli zadać nowe pytania, którymi wcześniej – z powodu ograniczeń w zakresie danych i technologii – nie byli w stanie się zająć. Infrastruktura Clarin niewątpliwie wytycza drogę do fascynujących nowych interpretacji w dziedzinie języka i przetwarzania mowy.