Skip to main content
European Commission logo print header

Recognition and Enrichment of Archival Documents

Article Category

Article available in the following languages:

Udostępnianie pisemnego dziedzictwa kulturowego Europy osobom z całego świata

Dzięki projektowi READ, miliony ludzi na całym świecie otrzymają możliwość dostępu do dokumentów historycznych oraz bliższego poznania interesującej ich historii. Innowacyjne podejście do cyfryzacji pozwoli czytelnikom na zapoznanie się z treścią zapisanych odręcznie dokumentów znajdujących się w europejskich archiwach dzięki technologii rozpoznawania pisma odręcznego oraz wyszukiwania słów kluczowych.

Gospodarka cyfrowa icon Gospodarka cyfrowa

Celem projektu READ była realizacja wirtualnego środowiska badawczego, w ramach którego archiwiści, specjaliści zajmujący się naukami humanistycznymi, informatycy oraz wolontariusze mogli nawiązać ze sobą współpracę. Zespołowi przyświecał główny cel w postaci zastosowania innowacyjnych technologii, umożliwiających automatyczne rozpoznawanie, transkrypcję oraz indeksowanie tekstu, aby w ten sposób zrewolucjonizować kwestię dostępu do dokumentów historycznych. „Chcieliśmy mieć możliwość zapoznawania się z setkami kilometrów dokumentów archiwalnych i uzyskiwania dostępu do ich treści dzięki rozpoznawaniu tekstu, aby dać światu szansę na poznanie tego ukrytego skarbu bogatego dziedzictwa kulturowego Europy”, wyjaśnia koordynator projektu Günter Mühlberger, dyrektor Ośrodka Cyfrowych Badań nad Naukami Humanistycznymi Uniwersytetu w Innsbrucku i członek konsorcjum Time Machine. Projekt pozwolił na współpracę kilku grup badawczych, którym udało się osiągnąć kilka przełomowych odkryć naukowych w dziedzinach, takich jak rozpoznawanie tekstu zapisanego odręcznie, analiza układu graficznego i rozpoznawanie słów kluczowych. Jak twierdzi Mühlberger: „Poza tymi osiągnięciami, zbudowaliśmy pierwszą platformę rozpoznawania zapisanego odręcznie tekstu nazywaną Transkribus, dzięki której użytkownicy mogą trenować własne sieci neuronowe w celu rozpoznawania konkretnych krojów pisma. Obecnie na platformie zarejestrowanych jest przeszło 27 000 użytkowników, a setki osób korzystają z niej każdego dnia”. Mühlberger jest zachwycony faktem, że platforma stanowi nieocenioną pomoc dla osób zajmujących się różnymi dziedzinami nauki, w tym przetwarzaniem języka naturalnego czy średniowieczną historią. „Platforma Transkribus stanowi największy na świecie zbiór danych szkoleniowych historycznych pism spisanych odręcznie. Na podstawie tego ogromnego sukcesu utworzyliśmy jedną z pierwszych spółdzielni europejskich zajmujących się badaniami naukowymi oraz dziedzictwem kulturowym”.

Wykorzystywanie dotychczasowych prac

Projekt READ opierał się na kilku projektach realizowanych w przeszłości, między innymi Improving Access to Text oraz tranScriptorium, w ramach których zostały przeprowadzone podstawowe badania. „Jednym z najważniejszych czynników, który pozwolił nam na osiągnięcie sukcesu, było jednak to, że program e-infrastruktury dla wirtualnych środowisk badawczych umożliwił nam opracowanie w pełni rozwiniętej usługi”, dodaje Mühlberger. Niezależnie od fundamentów, na których mógł oprzeć się zespół dzięki poprzednim projektom, uczestnicy tego działania nadal musieli stawić czoła szeregowi wyzwań, a jednym z nich było zagadnienie określane przez Mühlbergera mianem „problemu analizy układu graficznego”. W przypadku rozpoznawania pisma odręcznego, pierwszym krokiem w procesie przetwarzania jest ustalenie przez komputer, w których miejscach na stronie znajduje się tekst. To z pozoru łatwe zadanie okazało się największym wyzwaniem w początkowych fazach realizacji projektu. „Udało nam się znaleźć rozwiązanie tego problemu dzięki współpracy naukowców z wielu dziedzin nauki. Przede wszystkim musieliśmy wprowadzić nową koncepcję przedstawiania wierszy. W następnej kolejności zgromadziliśmy materiały z wielu archiwów w celu stworzenia największego zbioru danych w historii. Dzięki temu nasi współpracownicy z Uniwersytetu w Rostocku mogli zastosować na naszym zbiorze algorytmy uczenia maszynowego”, wyjaśnia Mühlberger. Zastosowane wielokierunkowe podejście przyniosło zamierzone skutki. Dzięki niemu dokładność wyszukiwania wierszy na stronie zapisanej pismem odręcznym wzrosła z 85 % do około 97 %. Platforma nieustannie staje się coraz bardziej popularna. Jak twierdzi Mühlberger: „Archiwa Narodowe w Holandii i Finlandii zapoczątkowały projekty, w ramach których udostępniają miliony zapisanych odręcznie dokumentów milionom użytkowników, dzięki wykorzystaniu technologii rozpoznawania pisma odręcznego oraz wyszukiwania słów kluczowych. Projekty te są jednymi z pierwszych działań realizowanych z pomocą platformy Transkribus oraz zarządzanych przez europejską spółdzielnię Transkribus”.

Słowa kluczowe

READ, dokumenty archiwalne, wyszukiwanie pełnotekstowe, Transkribus, cyfryzacja, rozpoznawanie pisma odręcznego

Znajdź inne artykuły w tej samej dziedzinie zastosowania