El patrimonio cultural manuscrito de Europa abierto a todo el mundo
El proyecto READ se propuso crear un entorno de investigación virtual en el que archiveros, expertos en humanidades, informáticos y voluntarios pudieran colaborar. El objetivo final consistía en aplicar tecnologías innovadoras para el reconocimiento, la transcripción y la indexación automatizadas, a fin de revolucionar el acceso a documentos históricos. «Queríamos emplear el reconocimiento de texto escrito a mano para explorar y acceder a cientos de kilómetros de documentos archivados y, de este modo, abrir uno de los últimos tesoros escondidos del enorme patrimonio cultural europeo», explica Günter Mühlberger, coordinador del proyecto, director del Centro de Investigación de Humanidades Digitales de la Universidad de Innsbruck y miembro del consorcio Time Machine. El proyecto juntó a diferentes grupos de investigación y logró avances científicos importantes en campos como el reconocimiento de texto manuscrito, el análisis del disposición y la identificación de palabras clave. Mühlberger añade: «Además de estos avances, hemos creado la primera plataforma para el reconocimiento de texto manuscrito, llamada Transkribus, en la que usuarios sin preparación técnica pueden entrenar a sus propias redes para que reconozcan determinados textos. Actualmente, hay más de 27 000 usuarios registrados en la plataforma, y cientos de ellos la usan a diario». Para Mühlberger, es un placer ver la fantástica acogida que ha tenido la plataforma por parte de personas de campos tan dispares como el procesamiento del lenguaje natural o la historia medieval, y explica: «Transkribus es el conjunto de datos de manuscritos históricos para la enseñanza más grande del mundo. Con base en este éxito tan abrumador, hemos decidido establecer una de las primeras sociedades cooperativas europeas en el campo de la investigación y el patrimonio cultural».
Un desarrollo sobre la base de trabajos anteriores
El trabajo de READ se basó en el de varios proyectos anteriores, pero especialmente en Improving Access to Text y tranScriptorium, iniciativas que ya habían realizado la investigación fundamental. «Una de las razones principales del éxito del proyecto fue que el programa de infraestructura electrónica para entornos de investigación virtuales nos permitiese crear un servicio totalmente configurado», añade Mühlberger. A pesar de esta ayuda de proyectos anteriores, el equipo tuvo que enfrentarse, como es habitual, a diferentes problemas. Uno de ellos fue lo que Mühlberger define como «el problema del análisis de la disposición». A la hora de reconocer textos manuscritos, el primer paso es conseguir que el ordenador sepa dónde está el texto de la página. Puede parecer algo sencillo, pero fue la parte más compleja al inicio del proyecto. «La solución consistió en combinar diferentes especialidades. En primer lugar, introducimos un nuevo concepto sobre cómo representar una línea. A continuación, creamos el conjunto de datos más grande del mundo sobre manuscritos históricos integrando material de diferentes archivos. Por último, los compañeros de la Universidad de Rostock aplicaron métodos de aprendizaje automático», aclara Mühlberger. El enfoque múltiple dio resultados. Se logró un 97 % de precisión en la detección de líneas en una página manuscrita, una gran mejora con respecto al 85 % anterior. La plataforma está cogiendo fuerza. Mühlberger señala: «Los archivos nacionales de los Países Bajos y Finlandia han empezado proyectos para ofrecer millones de documentos manuscritos a millones de usuarios, gracias al reconocimiento de texto y la identificación de palabras clave. Estos proyectos están entre los primeros en desarrollarse con Transkribus y ser gestionados por su sociedad cooperativa europea».
Palabras clave
READ, documentos de archivo, búsqueda de texto completo, Transkribus, digitalización, reconocimiento de texto manuscrito