Un outil web en libre accès pour l’annotation de textes biomédicaux en français
Les scientifiques emploient des ontologies et des terminologies pour indexer, exploiter et récupérer des informations biomédicales. L’utilisation d’ontologies et de terminologies sert de dénominateur commun pour structurer les données biomédicales. Toutefois, la plupart des outils sont en anglais, et malgré la grande quantité de données cliniques produites en français, peu de technologies sont facilement disponibles.
Un outil d’annotation biomédicale en français
Entrepris avec le soutien du programme Marie Skłodowska-Curie (MSC), l’objectif du projet www.lirmm.fr/sifr (SIFRm) était d’établir un flux de travail d’indexation basé sur l’ontologie et spécialisé pour les autres langues de l’UE, à commencer par le français. «Notre principal objectif était de rendre disponible l’annotation de données de textes biomédicaux en un clic pour libérer les chercheurs du fardeau que sont les terminologies et les ontologies ou le traitement du langage naturel», explique Clément Jonquet, boursier du programme MSC. SIFRm incarnait une collaboration entre l’équipe du professeur Cerri du Laboratoire d’informatique, de robotique et de microélectronique de Montpellier, et l’équipe du professeur Musen du Centre de recherche en informatique biomédicale de Stanford, aux États‑Unis, toutes deux reconnues pour le développement de services basés sur l’ontologie. Les chercheurs ont mis au point l’annotateur SIFR, un service web accessible au public qui permet de traiter les données de textes biomédicaux en français. Cet annotateur balise essentiellement des textes bruts avec des concepts d’ontologie biomédicale pertinents et étend sémantiquement les annotations grâce aux connaissances intégrées dans les ontologies. Par exemple, si une note clinique contient la phrase «aucun signe de mélanome», l’annotation sémantique permettra de répertorier le patient dans les cas non pertinents pour des études sur le cancer. Afin de soutenir ce service, le projet a développé le répertoire d’ontologie SIFR BioPortal. À l’instar de la technologie NCBO BioPortal développée à l’université de Stanford, SIFR BioPortal héberge différentes terminologies et ontologies en français, offrant à la communauté de multiples services liés à l’ontologie.
L’annotation de données cliniques et d’entités agronomiques
En collaboration avec le projet PractiKPharma, l’annotateur SIFR a été enrichi pour traiter des données cliniques et contextualiser les pathologies présentes dans les notes cliniques. Des scientifiques ont développé des caractéristiques spécifiques pour l’annotation de textes cliniques, répondant ainsi au besoin de l’Hôpital européen Georges‑Pompidou et du Centre hospitalier universitaire de Nancy. De plus, SIFRm a généralisé des méthodes scientifiques pour établir un répertoire accessible d’ontologies agronomiques appelé AgroPortal, un effort communautaire initié par la communauté scientifique de Montpellier et finalisé grâce à la mobilité de la recherche vers Stanford. En se basant sur les résultats scientifiques et l’expérience du domaine biomédical, les scientifiques ont développé AgroPortal pour l’agronomie et ses domaines connexes tels que l’alimentation, les sciences végétales et la biodiversité. «AgroPortal répond au besoin de disposer d’une plateforme commune pour héberger, mettre à disposition et uniformiser les ressources sémantiques disponibles dans ce domaine, en permettant leur exploitation dans des applications d’agro‑informatique», indique M. Jonquet. Le répertoire AgroPortal héberge actuellement plus de 110 glossaires ou ontologies et sera davantage enrichi dans un avenir proche. Plus de 190 utilisateurs se sont déjà inscrits à cette plateforme fréquemment visitée chaque mois. Dans l’ensemble, le projet SIFRm a fourni le premier outil web librement accessible qui permet de reconnaître des entités et d’annoter et de contextualiser des textes biomédicaux rédigés en français. La performance de ce service web est comparable aux autres plateformes d’annotation, et l’on s’attend à ce qu’il améliore le travail d’un large éventail de scientifiques, dont des cliniciens, des professionnels de la santé et des chercheurs. Les plans pour des futurs partenariats avec les hôpitaux et les centres de recherche en France élargiront l’utilisation de l’annotateur SIFR dans la recherche biomédicale. Dans un effort similaire, l’outil AgroPortal sera utilisé dans le cadre du projet www.d2kab.org (D2KAB), essentiellement financé par l’Agence nationale de la recherche, pour transformer des données en connaissances dans le domaine de l’agronomie et de la biodiversité.
Mots‑clés
SIFRm, biomédical, ontologie, annotateur, AgroPortal, BioPortal, français, données cliniques, indexation