Skip to main content

Article Category

Story

Article available in the folowing languages:

Reportaje - De la hoja impresa a los bits: nuevas herramientas al servicio de la digitalización en masa

En el marco de una investigación financiada con fondos europeos se ha desarrollado un conjunto de herramientas para el procesado y reconocimiento automáticos de textos que mejorará la fidelidad y la «buscabilidad» de textos digitalizados guardados en los archivos de museos y bibliotecas.

Economía digital

«Hoy en día, lo que no está en formato digital no es visible», aseguró Hildelies Balk, responsable de proyectos europeos en la Koninklijke Bibliotheek de La Haya (Países Bajos). «Es un problema que en los últimos tiempos se ha agudizado especialmente para las bibliotecas y los archivos nacionales, porque ahora la mayoría de la gente sólo busca en Internet. Si no encuentran algo en línea, dan por hecho que no existe. Por tanto, los museos, archivos y bibliotecas nacionales tienen la obligación de ofrecerlo todo en formato electrónico. Hay que escanear y digitalizar libros, documentos y demás materiales impresos de forma masiva, cuanto antes sea posible y con la mayor precisión.» El proceso de digitalización es relativamente sencillo. En primer lugar, se escanea un documento y se obtiene una imagen de la página. En los albores de la digitalización, el proceso terminaba en este punto. Pero ahora no, porque a continuación la imagen escaneada se procesa, normalmente con un programa informático de reconocimiento óptico de caracteres (OCR) para extraer el texto y obtenerlo en formato digital. Una vez se ha digitalizado el texto de esta manera, el documento al completo puede indizarse y encontrarse con los buscadores. Esta «buscabilidad» de los textos históricos ha transformado, de repente, las colecciones en recursos culturales de gran valor. Antes, para dar con un documento en particular, había que desplazarse hasta la institución concreta que lo poseía. Ahora, con una simple y rápida búsqueda de palabras clave se pueden extraer miles de documentos. Se puede localizar un volumen inmenso de fuentes importantes sin contar con conocimientos previos de las mismas De imagen a texto No obstante, cabe preguntarse si esta conversión de las palabras impresas en texto legible por máquinas es lo suficientemente precisa como para fiarse de los resultados de la búsqueda. «Nosotros pretendíamos mejorar o crear nuevas herramientas para las etapas posteriores al escaneado que redujeran el número de errores cometidos por los programas de OCR», explicó la Dra. Balk. «Esta digitalización en masa está dando lugar a un recurso de inmensas proporciones. Creo que en un futuro próximo seremos testigos de una proliferación de aplicaciones que aprovechen e incluso saquen provecho económico del mismo. Pero es imprescindible poder confiar en que la versión digital de un texto histórico constituye una copia fiel del original.» En los últimos cuatro años y medio, la Dra. Balk ha coordinado el proyecto Impact («Mejora del acceso al texto»), financiado por el 7PM. Uno de sus objetivos ha sido mejorar la precisión y fiabilidad de los textos obtenidos creando un conjunto de herramientas informáticas y módulos de procesado que puedan aplicarse (a veces de forma secuencial) a imágenes escaneadas. Antes de que determinada imagen escaneada pueda someterse a OCR, tiene que depurarse. Investigadores de la Universidad de Salford (Reino Unido), el Centro Nacional de Investigación Científica «Demokritos» de Atenas (Grecia) y la empresa especializada en tecnología de OCR ABBYY, con sede en Moscú (Rusia), trabajaron en una gama de algoritmos de procesado de imágenes con los que analizar y ajustar la imagen escaneada. Una herramienta analiza la alineación de los caracteres sobre la página y rectifica renglones de texto torcidos, un defecto quizás debido a su proximidad al lomo del libro. Otro algoritmo es capaz de eliminar los píxeles blancos y negros (el llamado ruido «sal y pimienta») aparecidos de forma aleatoria y con frecuencia en las imágenes escaneadas. El mejor carácter posible El equipo del proyecto sopesó varias opciones con el propósito de mejorar los resultados de la OCR. A este respecto, destaca la estrecha colaboración realizada con ABBYY. «Nos decantamos por esta empresa porque el uso de su software de OCR para digitalización está muy extendido por las bibliotecas de Europa», apuntó Balk. «ABBYY puso a nuestra disposición su plataforma de desarrollo de software y colaboramos estrechamente para integrar nuestra investigación en su programa. Ha sido muy gratificante ver que nuestra investigación servirá para mejorar un producto que ya se usa.» «No nos movía un interés por mejorar el OCR en sí -matizó Balk-, porque se puede decir que ya es una tecnología bastante desarrollada. Pero en ocasiones la naturaleza de los textos históricos puede mermar su precisión. Aspirábamos a desarrollar herramientas que tuvieran en cuenta este aspecto histórico.» Por ejemplo, muchos documentos históricos presentan una distribución del texto complicada, con múltiples columnas y letras capitulares. En algunos además se utilizan tipos de letra que no tienen correspondencia en los materiales modernos. El equipo de Impact conformó un corpus de 50 000 transcripciones digitales a partir de más de medio millón de páginas escaneadas procedentes de diversas bibliotecas nacionales europeas. Se trata de transcripciones casi perfectas, cotejadas con el original y verificadas, que pueden utilizarse para «entrenar» al programa de OCR y que sepa reconocer nuevos tipos de letra, trabajar con maquetaciones de página inusuales y comprobar los resultados de las aplicaciones. Además, el equipo del proyecto ha elaborado diccionarios históricos con los que el programa de OCR puede perfeccionar sus transcripciones. A medida que el programa analiza una imagen escaneada, junta los caracteres que reconoce formando palabras posibles cuya existencia verifica acto seguido. En caso de no existir, el programa trata de «adivinar» el vocablo del que se trata realizando comparaciones con aquellos que conoce y que contienen caracteres similares. No obstante, la mayoría de programas de OCR se basan en diccionarios modernos de vocabulario moderno. «Lo que quiere un investigador es leer el verdadero contenido de los documentos, con su ortografía original -destacó Balk-. Y cuando se realizan búsquedas en un documento no es práctico tener que buscar diez ortografías distintas, o en algunos casos hasta cincuenta, de una misma palabra. Hemos compilado diccionarios de palabras arcaicas en nueve lenguas con sus distintas ortografías y establecido correspondencias con ortografías y sinónimos modernos. Así, el programa de OCR puede transcribir un documento palabra por palabra pero también realizar conversiones a las ortografías modernas valiéndose del diccionario. Éste sirve para que el proceso de digitalización sea más preciso, flexible y usable.» El lado humano De cara a una digitalización masiva, es importante que todas estas herramientas funcionen de forma automática. Si se pretende digitalizar millones de páginas, resulta imposible comprobar manualmente la fidelidad de las transcripciones. Por ello el equipo del proyecto ha desarrollado tecnologías novedosas gracias a las cuales el usuario podrá verificar el resultado del OCR de forma rápida y sencilla. Especialistas en lingüística computacional de la Universidad de Múnich crearon un algoritmo capaz de puntuar la probabilidad de que las palabras de una transcripción mediante OCR sean correctas. Dicho algoritmo tiene en cuenta el período histórico y el idioma original del documento, así como información sobre los patrones predominantes de ortografía y lingüística histórica. De ese modo puede determinar, por ejemplo, si las palabras con supuestos errores ortográficos podrían deberse a errores de OCR (marcándose de forma acorde) o bien constituyen variantes ortográficas válidas desde el punto de vista histórico. Científicos de IBM Israel Science and Technology desarrollaron otro sistema que también hace uso de un método novedoso de OCR. Este «OCR adaptable» , llamado Concert cuenta como novedad con un ingenioso sistema de corrección colaborativa que da a voluntarios la opción de contribuir a mejorar la precisión del reconocimiento automático corrigiendo ellos los errores. «Impact ha proporcionado un conjunto de herramientas que las entidades asociadas están probando para evaluar su efecto en la precisión y fidelidad de la transcripción», informó Clemens Neudecker, coordinador técnico de proyectos europeos de la Koninklijke Bibliotheek. «Pretendemos determinar en qué medida cada una de ellas perfecciona el reconocimiento, pero también su rendimiento conjunto estando combinadas en una cadena de procesado post-escaneado. También verificamos la compatibilidad de todas estas herramientas, para lo cual publicamos un marco arquitectónico tecnológico , de modo que las bibliotecas puedan hacer uso de estos recursos y procesar documentos digitalizados sin necesidad de preocuparse por los formatos ni por la conversión de archivos.» El proyecto tocó a su fin en junio de 2012, pero en la actualidad los conocimientos acumulados por los socios y sus experiencias con el uso y desarrollo de herramientas de digitalización se están dando a conocer a todo el colectivo interesado en la digitalización masiva a través del Centro de Competencia de Impact . La investigación del proyecto Impact se realizó con una dotación de 12,1 millones de euros (de un presupuesto total de 17,1 millones de euros) procedente del Séptimo Programa Marco (7PM) de la UE, a través del tema de TIC. Enlaces útiles: - sitio web del proyecto Impact - ficha informativa del proyecto Impact en CORDIS - Centro de Competencia de Impact - «Desafío 4 de TIC: Bibliotecas y contenidos digitales» - Europeana Artículos relacionados: - Reportaje - El patrimonio cultural en formato digital