CORDIS - Forschungsergebnisse der EU
CORDIS

Recognition and Enrichment of Archival Documents

Article Category

Article available in the following languages:

Das schriftliche kulturelle Erbe Europas für Menschen auf der ganzen Welt öffnen

Millionen Menschen haben dank des READ-Projekts die Chance, auf historische Dokumente zuzugreifen und Erkenntnisse zu interessanten Aspekten der Geschichte zu erlangen. Der innovative Digitalisierungsansatz macht handschriftliche Dokumente aus europäischen Archiven dank der Erkennung von handschriftlichem Text und Schlüsselworterkennung („Keyword Spotting“) zugänglich.

Digitale Wirtschaft icon Digitale Wirtschaft

Das READ-Projekt wurde ins Leben gerufen, um eine virtuelle Forschungsumgebung einzuführen, in der Archivare, Geisteswissenschaftler, Informatiker und Freiwillige zusammenarbeiten könnten. Das gemeinsame Ziel war die Anwendung innovativer Technologie für die automatisierte Erkennung, Transkription und Indexierung von Text, um den Zugriff auf historische Dokumente zu revolutionieren. „Wir wollten in der Lage sein, hunderte Kilometer archivierter Dokumente über die Erkennung von handschriftlichem Text zu erforschen und abzurufen, um hierdurch einen der letzten verborgenen Schätze des reichen kulturelle Erbes Europas zu erschließen“, erklärt Projektkoordinator Günter Mühlberger, Leiter des Forschungszentrums Digital Humanities der Universität Innsbruck und Mitglied des Konsortiums Time Machine. Das Projekt führte mehrere Forschungsgruppen zusammen und erreichte wissenschaftliche Durchbrüche in Bereichen wie handschriftliche Texterkennung, Layout-Analyse und Schlüsselworterkennung. Mühlberger meint hierzu: „Neben diesen Durchbrüchen haben wir die erste handschriftliche Texterkennungsplattform namens Transkribus eingerichtet, auf der nicht-technische Benutzer ihre eigenen Netzwerke in der Erkennung spezifischer Schriften trainieren können. Mehr als 27 000 Benutzer sind derzeit auf der Plattform registriert, hunderte davon nutzen die Plattform täglich.“ Mühlberger ist hocherfreut, zu sehen, wie gut die Plattform von den Menschen wahrgenommen wird, die in so vielfältigen Bereichen wie der Verarbeitung natürlicher Sprache und Geschichte des Mittelalters arbeiten, und meint dazu: „Transkribus stellt den größten Schulungsdatensatz für historische Handschriften weltweit dar. Ausgehend von diesem überwältigenden Erfolg haben wir eine der ersten Europäischen Genossenschaften in der Domäne Forschung und kulturelles Erbe eingerichtet.“

Auf vergangene Arbeit aufbauen

READ basierte auf mehreren vorhergehenden Projekten, insbesondere Improving Access to Text und tranScriptorium, in denen Grundlagenforschung betrieben wurde. „Einer der wichtigsten Erfolgsfaktoren war jedoch, dass das elektronische Infrastrukturprogramm für virtuelle Forschungsumgebungen uns die Chance zur Erstellung eines vollwertigen Dienstes gab“, fügt Mühlberger hinzu. Doch unabhängig von der starken Vorarbeit, die vorhergehende Projekte für das Team geleistet hatten, gab es – so wie dies stets der Fall ist – nach wie vor Herausforderungen zu überwinden! Eine solche Herausforderung bezeichnet Mühlberger als „das Layout-Analyseproblem“. Was die Erkennung von handschriftlichem Text angeht, besteht der erste Schritt in der Datenverarbeitung darin, dass der Computer wissen muss, an welcher Stelle auf einer Seite der Text tatsächlich steht. Dies mag wie eine einfache Aufgabe erscheinen, doch war die schwerste Herausforderung zu Beginn des Projekts. „Es wurde durch die Bündelung von Kräften aus mehreren Fachbereichen gelöst“. Zunächst wurde ein neues Konzept zur Darstellung einer Zeile eingeführt. Dann wurde der bis dato mit Abstand größte Datensatz erstellt, indem Material aus mehreren Archiven integriert wurde. Schließlich wandten die Kollegen von der Universität Rostock Methoden des maschinellen Lernens an“, erklärt Mühlberger. Ihr mehrgleisiger Ansatz zahlte sich aus. Das Ergebnis war, dass eine ursprüngliche Genauigkeit von zirka 85 % beim Finden von Zeilen auf einer handschriftlichen Seite auf eine Genauigkeit von etwa 97 % erhöht werden konnte. Die Plattform gewinnt an Dynamik. Mühlberger sagt hierzu: „Das Nationalarchiv in den Niederlanden und die Nationalarchive Finnlands starteten Projekte, bei denen Millionen handschriftliche Dokumente über handschriftliche Texterkennung und Schlüsselworterkennung Millionen Benutzern bereitgestellt werden. Diese Projekte zählen zu den ersten, die mit Transkribus durchgeführt und von der Europäischen Genossenschaft Transkribus bearbeitet werden.“

Schlüsselbegriffe

READ, Archivdokumente, Volltextsuche, Transkribus, Digitalisierung, Erkennung von handschriftlichem Text

Entdecken Sie Artikel in demselben Anwendungsbereich