Skip to main content

NewsEye: A Digital Investigator for Historical Newspapers

Article Category

Article available in the folowing languages:

I metodi di ricerca sui giornali storici vengono rivisti

Cercare tra i giornali storici un articolo scientifico o una tesi è sempre stato un compito noioso, se non addirittura senza speranza. Grazie agli strumenti automatici di riconoscimento, ricerca, arricchimento semantico ed elaborazione del testo di NewsEye, questo lavoro sta diventando molto più facile.

Economia digitale
Società

Spesso guardiamo ai libri di storia come la memoria più preziosa delle lotte e delle scoperte passate di una società, ma per quanto riguarda i dettagli, niente batte davvero i milioni di eventi, storie e nomi discussi nei giornali ogni singolo giorno. In questo senso, i giornali sono parte integrante del nostro patrimonio culturale e devono essere digitalizzati e conservati, il che spiega perché le biblioteche di tutta Europa hanno intensificato i loro sforzi e continueranno a farlo nei prossimi anni. Tuttavia, gli attuali metodi di digitalizzazione non sono privi di inconvenienti. Come sottolinea Antoine Doucet, professore e ricercatore all’Università di La Rochelle: «C’è ancora molto da fare perché le collezioni siano veramente disponibili ai cittadini comuni e agli studiosi di scienze umane, in modo che possano beneficiare delle nuove possibilità offerte dai metodi digitali per le loro ricerche». Ci sono diversi problemi in questione, che Doucet ha cercato di superare grazie ai finanziamenti del progetto NewsEye (A Digital Investigator for Historical Newspapers): la bassa qualità dei giornali digitalizzati, la mancanza di strumenti di ricerca e analisi adeguati e la vertiginosa quantità di informazioni disponibili che richiede nuovi modi per aiutare gli utenti a trovare ciò che cercano. Il primo problema è quindi legato al fatto che la maggior parte delle collezioni delle biblioteche sono state digitalizzate decenni fa. Applicando il riconoscimento ottico dei caratteri (OCR) a tali archivi, si ottengono spesso risultati di scarsa qualità e questo è problematico, poiché gli utenti dei giornali storici hanno bisogno di risultati di riconoscimento del testo di alta qualità per cercare, trovare e sfogliare i contenuti rilevanti. NewsEye supera questo problema combinando tecnologie avanzate per il riconoscimento del testo, l’analisi del layout, la separazione degli articoli e altre operazioni affini. Inoltre, Doucet e il suo gruppo di ricerca hanno sviluppato strumenti semantici che arricchiscono il testo con dati come entità nominate (persone, aziende, paesi, ecc.) o eventi, i quali possono poi essere collegati a fonti di dati esterne come Wikidata, il che aiuta a fornire risultati di ricerca più accurati che attraversano anche le barriere linguistiche.

Potenzialità di ricerca migliorate

«L’arricchimento semantico fornisce potenti capacità di ricerca e supporta ulteriori analisi del contenuto. I metodi applicati sono fortemente basati su approcci statistici ed evitano la dipendenza da dizionari esterni o da analisi linguistiche di alto livello, il che rende i nostri strumenti applicabili a una vasta gamma di lingue», afferma Doucet. Si tratta davvero di un grande passo avanti. Gli utenti dei giornali storici hanno bisogno di strumenti efficaci per indicizzare e ispezionare il contenuto dei giornali in vari modi per scoprire argomenti, tendenze e modelli. Tali strumenti erano per lo più inesistenti prima di NewsEye e quelli che esistevano non riuscivano a far fronte a risultati OCR confusionari e di bassa qualità. Questo ci porta al terzo problema: gli strumenti allo stato dell’arte per l’analisi del testo non sono adatti alle esigenze degli utenti dei giornali storici. NewsEye colma questa lacuna con gli strumenti di analisi testuale dinamica, i quali supportano query interattive per scoprire diversi punti di vista, sotto-argomenti o tendenze riguardanti l’argomento selezionato, l’entità nominata, il giornale, il periodo di tempo, ecc. Tutto ciò fornisce approfondimenti sulla collezione di giornali in modo contestualizzato e comparativo. Infine, ma non meno importante, gli utenti interessati a questioni storiche e che devono affrontare lo studio di miliardi di articoli beneficeranno del cosiddetto «assistente personale della ricerca» del progetto. Doucet spiega: «L’assistente analizzerà autonomamente il contenuto dei giornali per conto dell’utente e riporterà i risultati che valuterà come potenzialmente interessanti. Fornirà anche una logica presentata in modo trasparente su come è stata fatta la valutazione, in modo che i risultati possano essere compresi e verificati dall’utente». Tutti gli strumenti di NewsEye sono disponibili sul sito web del progetto. Molti di essi sono sulla buona strada per essere pienamente sfruttati e sostenuti e Doucet intende alla fine renderli utili oltre l’ambito della ricerca sui giornali. Sono già stati concessi finanziamenti per tale esame, nel contesto di ulteriori progetti a livello regionale, nazionale ed europeo.

Parole chiave

NewsEye, storia, giornale storico, ricerca, OCR, analisi del testo

Scopri altri articoli nello stesso settore di applicazione