European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Article Category

Article à la une
Contenu archivé le 2024-04-23

Article available in the following languages:

En vedette - De la page imprimée aux bits: de nouveaux outils pour la numérisation de masse

Un projet de recherche financé par l'UE a abouti au développement d'une suite d'outils de reconnaissance et de traitement de texte automatisé qui améliorent la fidélité et la facilité de consultation des textes numérisés provenant des archives de bibliothèques et musées.

Économie numérique icon Économie numérique

«Aujourd'hui, tout ce qui n'est pas numérique n'est pas visible,» déclare Hildelies Balk, chef des projets européens à la Koninklijke Bibliotheek de La Haye, aux Pays-Bas. «Pour les bibliothèques et les archives nationales, ce problème est encore plus prononcé qu'avant car la majeure partie des gens consulte désormais internet. Si quelque chose n'est pas en ligne, alors ils pensent que ce n'est pas disponible. Les bibliothèques, archives et musées nationaux sont donc obligés maintenant de tout mettre à disposition sous forme électronique. Nous devons scanner et numériser les livres, documents et textes imprimés en masse de manière aussi rapide et précise que possible.» Le processus de numérisation est relativement simple. Vous scannez d'abord un document pour créer une image de la page - et c'est là que le processus s'arrêtait aux tous débuts de l'ère de la numérisation. Mais aujourd'hui, l'image scannée est ensuite traitée, généralement à l'aide d'un logiciel de reconnaissance optique des caractères (OCR) pour convertir le texte dans un format numérique. Une fois le texte numérisé, l'intégralité du document est alors disponible pour l'indexation et accessible aux moteurs de recherche. La facilité de consultation des textes historiques transforme d'un coup les collections en une puissante ressource culturelle. Auparavant, vous deviez vous rendre dans un établissement spécifique pour consulter un document particulier. Aujourd'hui, une recherche rapide par mots-clés peut mettre des milliers de documents à votre portée; vous pouvez identifiez un grand volume de données sur un sujet sans une connaissance préalable de celui-ci. Vous saisissez? Mais cette conversion de mots imprimés en texte lisible à la machine est-elle suffisamment précise pour faire confiance aux résultats de recherche? «Nous voulions améliorer ou créer de nouveaux outils en aval du processus de numérisation susceptibles de réduire les erreurs générées par le système OCR,» explique le Dr Balk. «Cette numérisation de masse engendre une immense base de données et, à mon avis, nous verrons bientôt apparaître une multitude d'applications pour exploiter, voire même monétiser cette ressource. Mais nous devons être certains que la version numérique d'un texte historique est une copie conforme de l'original.» Pendant quatre ans et demi, le Dr Balk a coordonné le projet Improving access to text au titre du 7e PC (Impact). L'un des principaux objectifs du projets était d'améliorer l'exactitude et la fiabilité du texte produit en développant une suite d'outils logiciels et de modules de traitement susceptibles d'être appliqués (parfois en série) aux images scannées. Avant d'appliquer un OCR sur une image scannée, celle-ci doit d'abord être nettoyée. L'Université de Salford au Royaume-Uni, le Centre national pour la recherche scientifique Demokritos à Athènes et ABBYY, spécialiste de la technologie OCR basé à Moscou, ont travaillé sur divers algorithmes de traitement des images qui pourraient analyser et ajuster l'image scannée. Un outil observe l'alignement des caractères sur la page et redresse les lignes de texte qui se présentent de travers, peut-être en raison de leur proximité de la reliure d'un livre. Un autre algorithme peut supprimer l'apparence aléatoire des pixels noirs et blancs (appelé bruit de nature «poivre et sel») qui se produit fréquemment dans des images scannées. Un caractère semblable Le projet a étudié diverses options pour améliorer les résultats de l'OCR. Dans le cadre de la collaboration, un partenariat étroit a été établi entre l'éditeur du logiciel OCR et le distributeur ABBYY. «Nous avons choisi de travailler avec cette société du fait que son logiciel OCR est largement utilisé par les bibliothèques en Europe pour la numérisation,» déclare le Dr Balk. «ABBYY a mis à notre disposition son kit de développement logiciel et a travaillé en étroite collaboration en vue d'intégrer notre recherche à son logiciel. Voir notre effort de recherche contribuer à l'amélioration d'un produit qui est déjà utilisé fut très intéressant.» «L'amélioration de l'OCR ne nous intéressait pas en soi,» explique le Dr Balk, «car celui-ci est raisonnablement bien conçu, mais la nature des textes historiques peut parfois rendre l'OCR moins précis. Nous voulions développer des outils capables de tenir compte de ce contexte historique.» Par exemple, les documents historiques ont souvent des présentations compliquées, avec plusieurs colonnes et des lettrines. Ils utilisent également souvent différentes polices de caractère qu'on ne retrouve pas dans les documents modernes. Le projet Impact a généré un jeu (sous forme de recueil) de 50 000 transcriptions numériques extraites de plus d'un demi-million de pages scannées provenant de plusieurs bibliothèques nationales européennes. Ces «données recueillies sur le terrain» qui sont validées comme étant des transcriptions presque parfaites peuvent être utilisées pour initier le logiciel OCR à reconnaître de nouvelles polices de caractère ou à s'adapter aux mises en page inhabituelles, et également pour tester les applications en vue des résultats. Le projet a également produit des dictionnaires historiques que le logiciel OCR peut utiliser pour améliorer ses transcriptions. Lors du traitement d'une image scannée, le logiciel OCR regroupe les caractères qu'il reconnaît pour former des «mots», puis vérifie que les mots existent vraiment; Dans le cas contraire, le logiciel va normalement effectuer une nouvelle recherche de mots en sélectionnant ceux dont l'orthographe se rapproche le plus. Mais le logiciel OCR utilisera la plupart du temps des dictionnaires modernes comportant des mots actuels. «Les chercheurs veulent lire le contenu réel des documents, avec l'orthographe d'origine,» déclare le Dr Balk, «mais pour trouver le document vous n'avez pas envie d'essayer 10, voire parfois plus de 50, orthographes différentes d'un mot. Nous avons réalisé une compilation de dictionnaires de mots peu courants dans neuf langues et orthographes et les avons reliés à des synonymes et orthographes d'aujourd'hui. De cette façon, l'OCR sera capable de transcrire un document mot à mot, mais il sera également possible d'utiliser le dictionnaire pour convertir en langage moderne. Le dictionnaire aide à rendre la numérisation plus exacte, mais également plus souple et plus fonctionnelle.» Touche personnelle Avec la numérisation de masse, il est important que ces outils fonctionnent automatiquement - étant donné les millions de pages à numériser, il est impossible de vérifier la précision de toutes les transcriptions. Néanmoins, le projet a permis de développer de nouvelles technologies qui permettront aux utilisateurs de vérifier la sortie OCR de façon simple et rapide. Des spécialistes de la linguistique informatique de l'Université de Munich ont travaillé sur un algorithme qui est capable de vérifier si les mots d'une transcription OCR sont corrects ou non. L'algorithme tient compte de la période historique et de la langue d'origine du document ainsi que des informations sur les modèles définis pour l'orthographe et la linguistique historique. Il peut donc, par exemple, identifier si des mots mal orthographiés proviennent d'erreurs de l'OCR (qui seront surlignées) ou valider des variantes d'orthographe historique. Des scientifiques d'IBM Israel Science and Technology ont développé un autre système qui combine une nouvelle approche de l'OCR. Cet OCR adaptable appelé CONCERT ajoute un habile système de correction collaborative qui encourage l'implication bénévole à améliorer la précision des sorties OCR automatiques en corrigeant les erreurs humaines. «Impact a produit une suite d'outils et les partenaires du projet les testent actuellement pour évaluer leur impact sur l'exactitude et la fidélité de la transcription,» note Clemens Neudecker, responsable technique des projets européens à la Koninklijke Bibliotheek. «Nous voulons évaluer la façon dont ils peuvent améliorer individuellement le résultat, mais également leur impact global lorsqu'ils sont combinés dans un traitement post-numérisation. Par ailleurs, nous nous assurons de l'interopérabilité de ces outils en publiant un cadre d'architecture technique afin que les bibliothèques puissent utiliser les outils et traiter les documents numérisés sans avoir à se soucier des formats et conversions de fichiers.» Le projet devrait être terminé fin juin 2012, mais l'expertise collective des partenaires et leur expérience de l'utilisation et du développement d'outils de numérisation sont désormais mises à la disposition des professionnels de la numérisation de masse par le biais de l' Impact Centre of Competence . Le projet IMPACT a reçu un financement de la recherche de 12,1 millions d'euros (sur un total de 17,1 millions d'euros) au titre du thème TIC du septième programme-cadre (7e PC) de l'UE. Liens connexes: - Site web du projet «Improving access to text» - Fiche d'information du projet IMPACT sur CORDIS - Impact Centre of Competence - ICT Challenge 4: Digital libraries and content - Europeana Articles connexes: - En vedette: numériser notre patrimoine culturel