Un clustering fiable pour une analyse des données biomédicales

On dispose aujourd'hui de très grandes quantités de données, ce qui ne se traduit pas forcément par des informations utiles. Grâce à des outils de pointe permettant d'identifier les modèles, des scientifiques financés par l'UE ont pu extraire des informations signifiantes à partir de données d'imagerie sur le cerveau et des maladies potentiellement infectieuses.

Santé

La recherche médicale génère de très grandes quantités de données, dans des formats non stanrdardisés, et représentant des informations très variées. Une approche rationnelle pour réorganiser les sous-ensembles de ces données en groupes, afin que les données au sein du même groupe partagent des caractéristiques communes, est essentielle pour explorer les connaissances. Le clustering en est encore au début dans le cas de données à plusieurs dimensions, où chacune représente un attribut distinct (une variable). Les techniques de reconnaissance de modèles qui fonctionnent bien pour de petits nombres de dimensions échouent souvent lorsque le nombre de dimension de données analysées augmente. Des scientifiques financés par l'UE ont relevé les défis des données de clustering à grand nombre de dimensions, en se concentrant sur des structures à petite dimension qui peuvent approcher les données en question. Dans le cadre du projet PRINHDD (Pattern recognition in high dimensional data), ils ont développé de nouvelles méthodes d'analyse des données pour la diversité des espèces et les études de la maladie, entre autres. Ils ont proposé des méthodes au «plus proche voisin» pour tirer des conclusions sur les modèles spatiaux. Deux modèles spatiaux fréquemment étudiés entre les différentes espèces et leurs caractéristiques (sexe, situation etc.) sont la ségrégation et l'association. Les chercheurs ont également testé des modèles de réflexivité et de correspondance entre les espèces. Deux indices de ségrégation à base de distance ont été utilisés pour évaluer les résultats du clustering de maladie parmi les sujets, à partir d'une population homogène ou non. Les chercheurs se sont penchés sur la sensibilité de la taille de ces tests au modèle de fond sous-jacent, au niveau de clustering et au nombre de clusters. Par ailleurs, une nouvelle méthode promet d'extraire davantage d'informations morphométriques à partir des données de cartographie de distance corticale. Regrouper et recenser la distance des voxels de matière grise depuis la surface du cortex cérébral peut révéler des différences dans le planum temporale, entre les patients atteints de schizophrénie ou de psychose maniaco-dépressive . La recherche PRINHDD a été présentée dans 11 documents publiés dans des revues à comité de lecture. Lors de conférences internationales, l'équipe du projet a eu la chance de communiquer les résultats aux scientifiques travaillant dans le domaine de l'analyse de données à grand nombre de dimension et de la reconnaissance des modèles. La poursuite des travaux du projet PRINHDD sur la classification et le clustering, via de nouvelles collaborations, devrait élargir les méthodes statistiques et les applications.

Mots‑clés

Clustering, biomédical, analyse de données, données pluridimensionnelles, reconnaissance de modèles, PRINHDD

Pattern Recognition in High Dimensional Data

Un clustering fiable pour une analyse des données biomédicales

Mots‑clés

Découvrir d’autres articles du même domaine d’application

Partager cette page

Télécharger