European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Recognition and Enrichment of Archival Documents

Article Category

Article available in the following languages:

Offrire il patrimonio culturale scritto dell’Europa ai popoli di tutto il mondo

Milioni di persone avranno la possibilità di accedere a documenti storici e di conoscere aspetti della storia che li interessano, grazie al progetto READ. L’approccio innovativo alla digitalizzazione rende accessibili i documenti manoscritti provenienti da archivi europei grazie al riconoscimento del testo manoscritto e all’individuazione delle parole chiave.

Economia digitale icon Economia digitale

Il progetto READ si proponeva di realizzare un ambiente di ricerca virtuale in cui archivisti, studiosi di discipline umanistiche, informatici e volontari potessero lavorare insieme. L’obiettivo collettivo era l’applicazione di tecnologie innovative per il riconoscimento automatico, la trascrizione e l’indicizzazione del testo per rivoluzionare l’accesso ai documenti storici. «Volevamo riuscire a esplorare e accedere a centinaia di chilometri di documenti d’archivio attraverso il riconoscimento del testo manoscritto e, così facendo, svelare uno degli ultimi tesori nascosti del ricco patrimonio culturale europeo», ha spiegato il coordinatore del progetto Günter Mühlberger, responsabile del Centro di ricerca umanistica digitale dell’Università di Innsbruck e membro del consorzio Time Machine. Il progetto ha riunito diversi gruppi di ricerca e ha permesso di raggiungere progressi scientifici in campi quali il riconoscimento del testo manoscritto, l’analisi dell’impaginazione e l’individuazione delle parole chiave. Secondo Mühlberger: «Insieme a queste scoperte, abbiamo creato la prima piattaforma di riconoscimento del testo manoscritto chiamata Transkribus, dove utenti non tecnici possono formare le proprie reti al fine di consentire il riconoscimento di scritti specifici. Oltre 27 000 utenti sono attualmente registrati sulla piattaforma e centinaia la utilizzano quotidianamente». Mühlberger è lieto di vedere come la piattaforma venga accolta positivamente da persone che lavorano in settori diversi quali l’elaborazione del linguaggio naturale e la storia medievale: «Transkribus rappresenta il più grande set di dati di formazione della scrittura storica a livello mondiale. Sulla base di questo travolgente successo abbiamo creato una delle prime società cooperative europee nel campo della ricerca e del patrimonio culturale».

Sulla scia del lavoro compiuto

READ si basava su diversi progetti precedenti, principalmente Improving Access to Text e tranScriptorium all’interno dei quali si è svolta la ricerca di base. «Uno dei più importanti fattori di successo, tuttavia, è stato che il programma Infrastrutture elettroniche per ambienti di ricerca virtuali ci ha dato la possibilità di creare un servizio completo», ha aggiunto Mühlberger. Ma per quanto i progetti precedenti abbiano dato al team un certo vantaggio, c’erano ancora delle difficoltà da superare, come sempre! Una di queste difficoltà era quella che Mühlberger chiama «il problema dell’analisi dell’impaginazione». Quando si tratta di riconoscimento di testi manoscritti, il primo passo nell’iter verso l’elaborazione è che il computer deve sapere dove c’è effettivamente del testo su una pagina. Questo potrebbe sembrare un compito facile, ma è stata la maggiore difficoltà incontrata all’inizio del progetto. «È stata superata combinando forze provenienti da diversi domini. Prima di tutto, è stato introdotto un nuovo concetto di come rappresentare una linea. In secondo luogo, è stato creato il set di dati di gran lunga più grande mai realizzato integrando materiale proveniente da diversi archivi. Infine, i colleghi dell’Università di Rostock hanno applicato metodi di apprendimento automatico», ha spiegato Mühlberger. Il loro approccio da più fronti ha dato i suoi frutti. Il risultato è stato che da una precisione di circa l’85 % nella ricerca di righe su una pagina manoscritta, la percentuale di precisione ha raggiunto circa il 97 %. La piattaforma è sulla cresta dell’onda. Mühlberger afferma: «L’Archivio nazionale olandese e l’Archivio nazionale finlandese hanno avviato progetti in cui milioni di documenti manoscritti sono messi a disposizione di milioni di utenti attraverso il riconoscimento del testo manoscritto e l’individuazione di parole chiave. Questi progetti sono tra i primi a essere realizzati con Transkribus e gestiti dalla Società Cooperativa Europea Transkribus».

Parole chiave

READ, documenti d’archivio, ricerca full-text, Transkribus, digitalizzazione, riconoscimento del testo manoscritto

Scopri altri articoli nello stesso settore di applicazione