La fouille de texte bio-inspirée progresse

«Nous passons d'une économie de pénurie de données à une économie d'abondance qui changera la nature des soins de santé» -Mike Olson, expert en Internet des objets. Conformément à ces prévisions, des chercheurs de l'UE ont fait d'importants progrès dans l'obtention d'informations contextuelles pertinentes à partir de quantités massives de données biomédicales.

Économie numérique

Pubmed détient à lui seul des informations sur plus de 21 millions de publications scientifiques, et plus de 2 000 nouvelles entrées y sont ajoutées quotidiennement. Le projet BIOLITCONTEXTMINING (Contextual text mining from the biomedical scientific literature) a mis au point des méthodes basées sur le traitement du langage naturel et l'apprentissage automatique pour permettre aux scientifiques d'extraire et d'utiliser de façon efficace des informations pertinentes. Les chercheurs du projet ont fait progresser les techniques de fouille de texte bio-inspirée, avec de nouvelles méthodes pour l'extraction de relation, l'extraction d'informations de contexte locales et non locales et la découverte de connaissances. Par exemple, leur outil INO (Interaction Network Ontology) rassemble et classe plus de 800 mots-clés d'interaction et peut également couvrir des types d'interactions complexes. La fouille de textes basée sur INO permet d'identifier et de caractériser les interactions entre les gènes de l'hôte et ceux des bactéries Brucella. Grâce à une technique d'extraction des relations et des informations de contexte local, ils peuvent maintenant identifier les relations entre les régions du cerveau. Dans un autre développement clé, les chercheurs ont mis au point des méthodes pour identifier des contextes non locaux importants comme les méthodes expérimentales utilisées pour détecter les interactions protéine-protéine, à partir d'articles en texte intégral. Pour comprendre les mécanismes d'interaction bactériens au niveau moléculaire, il est essentiel de connaître l'emplacement de leur environnement naturel. Étonnamment, malgré l'abondance de la littérature sur l'écologie des bactéries, aucune base de données existante ne contient cette information. Les chercheurs ont développé des méthodes centrées sur l'ontologie pour obtenir des informations de contexte sur les bactéries, telles que leur habitat. Pour l'accès aux informations biomédicales contextuelles, les membres du projet ont contribué au développement de deux systèmes basés sur le Web - IGNET et PHISTO. En utilisant une technique de découverte des connaissances intégrée à IGNET, ils ont pu, dans une étude de cas, identifier des réseaux d'interaction entre les gènes pathogènes et vaccinaux associés. Des progrès importants ont également été réalisés en ce qui concerne les méthodologies d'analyse de l'interaction gène-gène et la prévision de l'interaction médicament-cible. Les nouveaux outils d'exploration de texte BIOLITCONTEXTMINING contribueront aux progrès dans plusieurs domaines biomédicaux, comme la biologie expérimentale, la bioinformatique et la biologie des systèmes. Les résultats du projet ont conduit à des publications dans huit revues à comité de lecture, ainsi qu'à six articles de conférence et d'atelier revus par des pairs, certains articles de revue étant actuellement en cours de d'examen.

Mots‑clés

Fouille de texte bio-inspirée, informations contextuelles, publications, BIOLITCONTEXTMINING, traitement du langage naturel, apprentissage automatique

Contextual Text Mining from the Biomedical Scientific Literature

La fouille de texte bio-inspirée progresse

Mots‑clés

Découvrir d’autres articles du même domaine d’application

Partager cette page

Télécharger