CORDIS - Forschungsergebnisse der EU
CORDIS

Article Category

Story
Inhalt archiviert am 2024-04-23

Article available in the following languages:

Feature Stories - Vom Druckwerk zum Bit: Neue Instrumente zur Massendigitalisierung

EU-finanzierte Forschungsaktivitäten können die Entwicklung einer Gruppe automatischer Texterkennungs- und -verarbeitungsinstrumente vorweisen, welche eine verbesserte Wiedergabetreue und Auffindbarkeit digitalisierter Texte aus Museums- und Bibliotheksarchiven verspricht.

Digitale Wirtschaft icon Digitale Wirtschaft

"Heutzutage ist alles, was nicht digital ist, schlicht nicht sichtbar", stellt Dr. Hildelies Balk fest, Leiterin europäischer Projekte an der Königlichen Bibliothek der Niederlande in Den Haag. "Für Bibliotheken und nationale Archiven besteht dieses Problem in unseren Tagen noch ausgeprägter als früher, da die meisten Menschen heute nur im Internet suchen. Und wenn dann etwas online nicht zu finden ist, dann vermuten sie ganz schnell, dass es gar nicht verfügbar ist. So haben die Nationalbibliotheken, Archive und Museen nun die Pflicht, alles elektronisch verfügbar zu machen. Wir müssen Bücher, Dokumente und Druckwerke en masse scannen und digitalisieren - und das so schnell und so genau, wie wir nur können." Der Digitalisierungsprozess gestaltet sich relativ einfach. Zuerst scannt man das Dokument ein, um ein Bild der Seite zu erzeugen. Und genau hier ist der Punkt, wo der Prozess in den Anfängen der Digitalisierung auch schon wieder beendet war. Heute jedoch wird das gescannte Bild weiter verarbeitet, was meistens mit OCR-Software (optische Zeichenerkennung, Optical Character Recognition) vor sich geht, um den Text dann in ein digitales Format zu extrahieren. Ist der Text erst einmal auf diese Weise digitalisiert, so steht das gesamte Dokument für die Indexierung und somit für die Suchmaschinen zur Verfügung. Die Auffindbarkeit historischer Texte verwandelt Sammlungen plötzlich in eine leistungsfähige kulturelle Ressource. So musste man früher zu einer speziellen Institution gehen und nach einem bestimmten Dokument suchen. Heute genügt zum Beispiel eine schnelle Stichwortsuche, um tausende Dokumente zu durchforsten. Man kann eine unüberschaubare Menge wichtiger Quellen ohne jegliche Vorkenntnisse ermitteln. Aufgabe verstanden? Ist aber diese Umwandlung des gedruckten Worts in maschinenlesbaren Text ausreichend genau, um vertrauenswürdige Suchergebnisse zu erzielen? "Wir wollten die Instrumente, die nach dem eigentlichen Scannen kommen, verbessern oder neu entwickeln, um die durch die optische Zeichenerkennung verursachten Fehler zu reduzieren", erklärt Dr. Balk. "Diese Massendigitalisierung ist eine gewaltige Ressource. Ich denke, in der nahen Zukunft werden verbreitet Anwendungen zum Einsatz kommen, die diese Ressource ausnutzen und auch zu Geld machen werden. Aber wir müssen darauf vertrauen können, dass die digitale Version eines historischen Texts auch tatsächlich eine wahrheitsgetreue Kopie des Originals ist." Dr. Balk koordinierte im Lauf der letzten viereinhalb Jahre das RP7-Projekt Impact ("Improving access to text"). Eines der Hauptziele des Projekts bestand darin, Genauigkeit und Zuverlässigkeit des digitalisierten Texts zu verbessern, indem eine Gruppe von Softwaretools und Bearbeitungsmodulen entwickelt wurde, die - manche nacheinanderfolgend - auf eingescannte Bilder angewendet werden können. Bevor eine optische Zeichenerkennung auf ein gescanntes Bild angewandt werden kann, muss es zunächst "gereinigt" werden. Die University of Salford im Vereinigten Königreich, das National Centre for Scientific Research "Demokritos" in Athen und der OCR-Technologiespezialist ABBYY mit Sitz in Moskau arbeiteten an einer Vielzahl von Bildverarbeitungsalgorithmen, die das gescannte Bild analysieren und anpassen können. Ein Tool betrachtet die Ausrichtung der Buchstaben auf der Seite und richtet Textzeilen aus, die aufgrund ihrer Nähe zum Buchrücken verzerrt wurden. Ein weiterer Algorithmus kann das zufällige Auftreten schwarzer und weißer Pixel (das sogenannte Salz-und-Pfeffer-Rauschen) entfernen, das häufig in gescannten Bildern auftaucht. Die Wahrscheinlichkeit und die Buchstaben Das Projekt untersuchte die verschiedenen Optionen zur Verbesserung der Resultate einer optischen Zeichenerkennung. Ein wichtiger Bereich der Zusammenarbeit war eine enge Partnerschaft mit ABBYY, einem Entwickler und Anbieter von OCR-Software. "Wir haben uns für die Zusammenarbeit mit diesem Unternehmen entschieden, da seine OCR-Software weit verbreitet im Einsatz ist und von den Bibliotheken in ganz Europa zur Digitalisierung verwendet wird", erläutert Dr. Balk. "ABBYY öffnete sein Softwareentwicklungspaket (Software Development Kit) für uns und arbeitete in enger Partnerschaft mit uns zusammen, um unsere Forschungsergebnisse in die Software zu integrieren. Es war großartig mitzuerleben, wie unsere Forschungsarbeit in die Verbesserung eines Produktes einging, das bereits im Einsatz ist." "Wir waren nicht daran interessiert, die optische Zeichenerkennung per se zu verbessern", erklärt Dr. Balk, "denn diese Sache ist schon ziemlich gut entwickelt, aber die Beschaffenheit historischer Texte kann zuweilen eine weniger genaue OCR nach sich ziehen. Wir wollten Instrumente entwickeln, die diesen historischen Kontext berücksichtigen." Historische Dokumente haben zum Beispiel oft komplizierte Layouts mit mehreren Spalten und hängende Initialen. Man findet häufig verschiedene Schriftarten vor, die in modernen Materialien nicht vorkommen. Das Impact-Projekt erzeugte einen Satz (einen Korpus) von 50 000 digitalen Transkripten, die aus einer Menge von mehr als einer halben Million gescannten Seiten erzeugt wurden, die mehrere europäische Nationalbibliotheken zur Verfügung stellten. Mit diesen sogenannten "Grundwahrheiten", die nachgewiesenermaßen nahezu perfekte Transkriptionen sind, kann die OCR-Software "trainiert" werden, um neue Schriftarten zu erkennen oder mit ungewöhnlichen Seitenlayouts klarzukommen, und auch um Anwendungen auf ihre Ergebnisse zu testen. Das Projekt erstellte außerdem historische Wörterbücher, welche die OCR-Software nutzen kann, um ihre Transkriptionen zu verbessern. Da die optische Zeichenerkennung über ein gescanntes Bild funktioniert, setzt sie die erkannten Zeichen zu "Worten" zusammen und überprüft dann, ob diese Worte auch tatsächlich existieren. Tun sie das nicht, dann wird die Software die Worte in der Regel im zweiten Anlauf durch einen Abgleich mit weitgehend übereinstimmenden Schreibweisen finden. Der größte Anteil der OCR-Software wird aber moderne Wörterbüchern mit modernem Wortschatz nutzen. "Forscher wollen den tatsächlichen Inhalt von Dokumenten lesen, inklusive der Originalschreibweise", sagt Dr. Balk, "aber zum Durchsuchen des Dokuments braucht man nicht zehn bzw. in einigen Fällen über 50 verschiedene Schreibweisen eines Worts. Wir haben Wörterbücher der arkanen Worte für neun Sprachen und Schreibweisen zusammengestellt und diese nach modernen Synonymen und Schreibweisen ausgearbeitet. Auf diese Weise kann die OCR-Software ein Dokument Wort für Wort transkribieren, aber es ist gleichermaßen möglich, das Wörterbuch zur Konvertierung in moderne Schreibweisen zu verwenden. Das Wörterbuch unterstützt eine exaktere Digitalisierung, macht das Ganze aber auch flexibler und besser einsetzbar." Der menschliche Faktor Diese Tools zur Massendigitalisierung müssen unbedingt automatisch arbeiten - die Masse der auf Digitalisierung wartenden Millionen von Seiten macht es schlicht unmöglich, dass Menschen alle Transkriptionen auf Genauigkeit überprüfen. Dennoch hat das Projekt neue Technologien entwickelt, mit deren Hilfe die Nutzer die Resultate der optischen Zeichenerkennung schnell und einfach verifizieren können. Computerlinguisten der Universität München arbeiteten an einem Algorithmus , mit dem die Wahrscheinlichkeit ermittelt werden kann, ob die Wörter in der OCR-Transkription richtig sind oder nicht. Der Algorithmus berücksichtigt das Zeitalter und die Originalsprache des Dokuments sowie Informationen über etablierte Schreibweisen und aus der historische Sprachwissenschaft. Daraus kann er erkennen, ob beispielsweise falsch geschriebene Wörter wahrscheinlich OCR-Fehler (die hervorgehoben werden) oder zulässige historische Schreibvarianten sind. Wissenschaftler von IBM Israel Science and Technology entwickelten ein weiteres System, das eine neuartige Herangehensweise an die optische Zeichenerkennung zusammenfasst. Diese "adaptive OCR" unter der Bezeichnung CONCERT fügt ein cleveres kollaboratives Korrektursystem hinzu, das zu freiwilliger Beteiligung an der Verbesserung der Genauigkeit der Ergebnisse der automatischen OCR durch menschliche Fehlerkorrektur ermutigt. "Impact hat einen ganzen Satz von Instrumenten erstellt. Die Partnern testen sie derzeit, um ihre Auswirkungen auf die Genauigkeit und Wiedergabetreue der Transkription zu bewerten", erklärt Clemens Neudecker, technischer Manager von europäischen Projekten an der Königlichen Bibliothek der Niederlande. "Wir wollen bewerten, wie viel sie individuell zur Verbesserung der Ergebnisse beitragen, und außerdem auch ihre Auswirkungen, wenn sie mit einer Kette von Bearbeitungsprozessen nach dem Scannen kombiniert werden. Mit der Veröffentlichung eines Interoperabilitäts-Frameworks (technology architectural framework) wollen wir außerdem gewährleisten, dass sämtliche Tools interoperabel sind, so dass die Bibliotheken die Instrumente nutzen und digitalisierte Dokumente bearbeiten können, ohne sich überhaupt Gedanken um Formate und Dateikonvertierungen machen zu müssen." Das Projekt soll im Juni 2012 enden, aber das kollektive Expertenwissen der Partner und deren Erfahrungen mit dem Einsatz und der Entwicklung von Digitalisierungstools wird nun im Rahmen des Impact Centre of Competence den an der Massendigitalisierung interessierten Einrichtungen zur Verfügung stehen. Das IMPACT-Projekt erhielt 12,1 Mio. EUR des Gesamtprojektbudgets in Höhe von 17,1 Mio. EUR als Forschungsmittel aus dem IKT-Programm des Siebten EU-Rahmenprogramms (RP7). Nützliche Links: - Projekt-Website "Improving access to text" - IMPACT-Projektfactsheet auf CORDIS - Impact Centre of Competence - ICT Challenge 4: Digital libraries and content - Europeana Weiterführende Artikel: - Feature Stories - Digitalisierung unseres Kulturerbes