L’analyse des dossiers médicaux électroniques pour la médecine personnalisée
Les chercheurs s’appuient de plus en plus sur des méthodes d’apprentissage automatique pour déchiffrer les schémas pathologiques complexes, étudier les interactions entre les médicaments et formuler des prévisions. Les méthodes actuelles ne permettent toutefois pas l’analyse de données hétérogènes ni l’intégration d’ensembles de données massifs tels que les DME.
Employer des techniques d’apprentissage automatique probabiliste
Entrepris avec le soutien du programme Marie Skłodowska-Curie (MSC), le projet PMOHR a relevé ce défi en développant des modèles interprétables capables d’analyser les DME. «Nous avons employé des techniques d’apprentissage automatique probabiliste, qui sont de plus en plus utilisées pour analyser des données réelles dans de nombreux domaines scientifiques», explique Francisco Rodríguez Ruiz, boursier du programme MSC. Dans l’apprentissage automatique probabiliste, les hypothèses portant sur la structure des données sont encodées dans un modèle avec des schémas dissimulés. En utilisant un algorithme d’inférence, le modèle apprend ces schémas et étudie les ensembles de données pour faire des prévisions. M. Rodríguez Ruiz a généré une nouvelle classe de modèles, appelée intégrations de la famille exponentielle (EFE pour «exponential family embeddings»), qui peut cerner les schémas de cooccurrence dans un ensemble de données. Cela signifie essentiellement que les EFE peuvent dévoiler des caractéristiques notables des diagnostics, ainsi que des éléments dissimulés tels que des pathologies, des termes médicaux ou des paramètres biologiques qui cosurviennent dans un ensemble de données spécifique. De manière non contrôlée, les EFE analysent la façon dont ces caractéristiques et ces diagnostics médicaux sont associés les uns aux autres.
Mettre à l’épreuve les modèles
Les modèles PMOHR sont fondés sur des algorithmes d’inférence rapide et peuvent ainsi gérer différents types de données à un rythme plus soutenu. Dans le même temps, les experts peuvent facilement interpréter les résultats sur le terrain, ce qui permet ainsi d’améliorer les modèles si les conclusions sont illogiques. Les modèles peuvent adaptés pour gérer de grands ensembles de données, et ils peuvent ainsi être utilisés pour l’analyse statistique des DME. Les chercheurs du projet PMOHR ont appliqué ces outils sur des données de DME accessibles au public, ainsi que sur des données issues de l’hôpital presbytérien de New York. Les EFE appliquées aux pathologies et aux textes cliniques issus de la base de données MIMIC‑III en accès libre ont permis d’identifier des groupes de maladies similaires en se basant uniquement sur les schémas de cooccurrence. Le regroupement des modèles a révélé des informations allant au‑delà du simple classement des maladies, en dévoilant des facteurs de risque loin d’être anodins et en guidant la future analyse des caractéristiques dissimulées.
L’importance du projet et les perspectives d’avenir
PMOHR a fait progresser l’état actuel de la modélisation probabiliste en développant des outils qui permettent d’analyser des ensembles complexes de données hétérogènes. La capacité à mesurer l’incertitude des prévisions constitue un avantage notable des techniques de modélisation probabiliste. «Lorsqu’il s’agit de prédire les facteurs de risque d’une maladie, la mesure d’incertitude s’avère essentielle», souligne M. Rodríguez Ruiz. Le projet PMOHR a pour objectif à long terme de mettre en œuvre des modèles probabilistes afin d’améliorer les systèmes de soins de santé grâce à la conception d’une médecine personnalisée et de systèmes de soutien sur le plan clinique. Non seulement cela permettra de contribuer à une meilleure santé, mais cela réduira également les coûts liés aux soins de santé. Dans le même temps, cela permettra de dévoiler des schémas précédemment inconnus à partir des données, et même d’engendrer de nouvelles théories de causalité. «Les futurs plans impliquent une avancée des modèles pour déterminer la causalité et l’effet des traitements médicaux ou des médicaments», conclut M. Rodríguez Ruiz.
Mots‑clés
PMOHR, apprentissage automatique probabiliste, dossiers médicaux électroniques, DME, intégrations de la famille exponentielle, EFE, modèle, algorithmes d’inférence, modélisation probabiliste