Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

FP7

Top Story

Financé au titre de: FP7-ICT

En vedette: Des TCI personnalisées pour offrir une nouvelle perspective du passé

L'histoire de l'Europe est contée à travers des textes, des illustrations, des peintures et, plus récemment, des photographies, des vidéos et des enregistrements sonores. Qu'il s'agisse d'histoires personnelles ou d'évènements internationaux, ils sont désormais largement numérisés. Des chercheurs financés par l'UE travaillent sur de nouvelles techniques pour tirer parti de ces trésors d'informations historiques et présenter le passé sous un nouvel éclairage.
En vedette: Des TCI personnalisées pour offrir une nouvelle perspective du passé
Les «Dépositions de 1641» (1641 Depositions), détenues par la bibliothèque du Trinity College de Dublin, font partie des nombreuses collections importantes, culturelles et historiques, conservées par des universités, des musées, des archives et des particuliers en Europe. En 1641, une rébellion des catholiques irlandais a changé le cours de l'histoire du pays et conduit à l'un des dossiers historiques et culturels les plus riches d'Europe. Les Dépositions de 1641 se composent de 8 000 témoignages et comptent près de 20 000 pages. Pendant des décennies, et dans bien des cas pendant des siècles, des chercheurs, des étudiants ou de simples particuliers ont fouillé de telles collections pour exhumer des détails du passé: une tâche longue et laborieuse, pleine de chausse-trappes et de culs-de-sac. Parmi les nombreux obstacles rencontrés, citons les textes incomplets ou incohérents, les mots effacés, les erreurs d'orthographe ou d'impression, l'évolution du langage, et tout simplement l'énorme quantité de documents.

Une équipe de chercheurs d'Autriche, de Bulgarie, d'Irlande, d'Israël et d'Italie, utilise des méthodes informatiques de pointe pour faire la plupart du gros travail. Le projet CULTURA («Cultivating understanding and research through adaptivity»), soutenu par plus de 2,8 millions d'euros de la Commission européenne, contribue à extraire rapidement un sens des archives numérisées, à dépasser les incohérences de la langue, établir des liens entre les événements historiques, les gens et les objets, et à rendre plus aisément accessible à tous le riche patrimoine historique et culturel de l'Europe.

«Lorsque l'on étudie des documents historiques, beaucoup d'informations ne sont pas immédiatement évidentes: il peut y avoir des ambiguïtés et des incohérences. Il faut donc appliquer des processus capables de partir de ces informations pour trouver ces références cachées», explique le Dr Owen Conlan, professeur adjoint au groupe Knowledge and Data Engineering de la School of Computer Science and Statistics du Trinity College. «Nous pouvons alors utiliser ces informations pour tracer un chemin et établir entre les références des connexions qui n'était pas immédiatement évidentes.»

Le Dr Conlan, qui coordonne le projet CULTURA, cite en exemple les «Dépositions de 1641». Parmi les nombreuses personnes mentionnées dans les témoignages, le nom de Phelim O'Neil revient fréquemment. Ce noble irlandais catholique était l'un des leaders des rebelles pendant le soulèvement. Mais dans les textes, et aussi ailleurs, il est appelé Sir Felim O'Neill de Kinard, Phelim MacShane O'Neill ou Féilim Ó Néill, ou tout simplement «Le Rebelle».

«Il déclara que, pendant le temps que lui, ce déclarant, était ainsi retenu et restait parmi les rebelles, il avait observé et savait parfaitement que la plus grande partie des rebelles du comté d'Armagh était allé assiéger le château d'Augher, où ils avaient été repoussés et des plongeurs du rebelle O'Neil tués.» Au titre de représailles, le grand rebelle, Sir Phelim O'Neil (chevalier), «donna ordre et décharge à un certain Maolmurry McDonnell, un rebelle des plus cruels et sans pitié, de tuer tous les hommes de nationalité anglaise ou écossaise…»

Un réseau social pour l'histoire

Dans le but d'extraire le sens de textes historiques aussi «bruités» et de commencer à relier les références, l'équipe de CULTURA a utilisé un logiciel de pointe en traitement du langage, capable de «normaliser» la langue et d'en extraire une signification sémantique compréhensible par les hommes et utilisable par les ordinateurs.

«Nous ne modifions aucunement le document et nous nous assurons d'une étroite fidélité avec l'original. Notre système ne fait que bâtir une autre couche d'information à partir de laquelle on peut extraire une signification», explique le Dr Conlan.

Le système utilise de puissants algorithmes pour extraire automatiquement les entités et leurs relations, afin de mettre en évidence les principaux personnages et dates ainsi que les autres entités et les relations. À partir de là, l'équipe a mis au point des outils qui analysent les connexions entre les entités et les relations avec le contenu, bâtissant une sorte de réseau social historique qui contribue à remettre en contexte les événements et les personnages passés, les rendant bien plus faciles à visualiser et à comprendre.

Cette approche fonctionne bien entendu avec des textes, comme les «Dépositions de 1641», mais aussi avec des images. Dans ce cas, la signification sémantique est extraite des métadonnées associées à chaque image et renseignées lors de la numérisation. L'équipe de CULTURA applique actuellement ce processus pour analyser la collection Imaginum Patavinae Scientiae Archivum (IPSA) de l'université de Padoue en Italie. Il s'agit d'une archive numérique d'herbiers illustrés et de manuscrits, commentés en latin et datant du 14ème siècle.

«La collection IPSA se compose principalement d'images, accompagnées de métadonnées substantielles. Ces métadonnées contiennent des passages descriptifs mais ont aussi une valeur historique en décrivant les processus qui prévalaient lors de la création de la collection originale», souligne le Dr Conlan. «Avec notre analyse de réseau social, nous pouvons par exemple savoir qui a réalisé les illustrations, qui les a financées et par quelles autres illustrations elles ont été influencées.»

Le système CULTURA ne se contente pas d'être adaptable en fonction du contenu et des documents étudiés: il s'adapte lui-même aux besoins de chaque utilisateur et groupe d'utilisateurs. Par exemple, un chercheur universitaire très ferré sur un certain sujet ou une collection donnée utilisera le système à la poursuite d'une référence très spécifique. Par contre, un particulier tout simplement curieux d'une période historique donnée attendra plutôt une vision plus générale.

«Nous avons également constaté que les chercheurs débutants qui utilisent ce système vont bien plus vite et bien plus loin dans leurs travaux», souligne le Dr Conlan.

Rendre plus accessible le patrimoine culturel et historique

Le système CULTURA peut satisfaire de nombreux autres types d'utilisateurs grâce à un processus innovant de personnalisation qui tient compte du profil de l'utilisateur et du contexte de sa recherche d'information. Des «widgets» intégrés au système proposent des contenus associés qui pourraient être intéressants, en s'appuyant en partie sur ce qui a attiré des utilisateurs similaires. Le système propose aussi de nouvelles voies de recherche, mais laisse bien entendu le choix final à la discrétion de l'utilisateur.

«La personnalisation doit faire ce que fait un bon conteur: éveiller l'intérêt de son public, évaluer les réactions et ajuster l'histoire en cours de route. Mais ici, le conteur et la personnalisation visent juste une personne», précise le Dr Conlan.

Le système peut même proposer des scénarios autour de certains événements, dates, lieux ou personnes, présentant à l'utilisateur une histoire agréable à suivre, qui s'adapte dynamiquement à son profil et à son utilisation.

«Les documents historiques ne doivent pas être réservés aux professeurs d'université et aux chercheurs. Ils doivent être accessibles à une grande variété de personnes, depuis des écoliers et des étudiants jusqu'aux sociétés historiques et aux groupes d'intérêt, en passant par le grand public», affirme le Dr Conlan. «L'accessibilité et la reconnaissance sont parmi les difficultés majeures que rencontrent les collections numériques. CULTURA a beaucoup à leur apporter en la matière.»

Outre les Dépositions de 1641 et la collection IPSA, l'équipe a commencé à appliquer le système CULTURA à un ensemble de documents historiques relatif au Soulèvement de Pâques 1916 et à sa répression, un autre événement charnière de l'histoire de l'Irlande, lorsque les républicains irlandais se sont soulevés contre la domination britannique.

«Le centenaire du Soulèvement approche, c'est donc une date très importante pour l'Irlande. Nous avons prévu beaucoup de travail avec les écoles, notamment car ces documents sont plus récents et accessibles», déclare le coordinateur de CULTURA. «En particulier, nous voulons associer des événements aux personnes réelles dans les documents car elles représentent les entités les plus attrayantes. C'est une excellente méthode pour attirer l'attention du lecteur sur des événements autrement quelque peu abstraits, et les présenter dans un contexte bien plus clair.»

Plusieurs partenaires comptent continuer de soutenir le système après l'achèvement du projet dans l'objectif de l'étendre à d'autres collections. Certains partenaires cherchent séparément à commercialiser des parties du système.

Le projet CULTURA a été financé par le septième programme-cadre (7e PC) de l'Union européenne.

Lien vers le projet sur CORDIS:

- le 7e PC sur CORDIS
- Fiche d'informations du projet CULTURA sur CORDIS

Lien vers le site web du projet:

- Site du projet «Cultivating understanding and research through adaptivity»

Autres liens:

- Site web de la stratégie numérique de la Commission européenne

Informations connexes