Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

Un outil prototype pour les opérations de data mining

Plusieurs outils et techniques ont été développés pour gérer des volumes importants de données et extraire des informations et des connaissances pertinentes de vastes gisements de données. Malheureusement, les approches actuelles des applications de data mining ne permettent pas de répondre à une exigence essentielle: mettre en évidence et traiter la notion d'incertitude lors des opérations de data mining. La recherche en cours permis de mettre en oeuvre un outil prototype à même de gérer ces problèmes d'évaluation de la qualité et de gestion de l'incertitude.
Un outil prototype pour les opérations de data mining
L'outil prototype développé dans le cadre du projet de recherche en cours est un système client/serveur mis en oeuvre sous Java et relié à un ensemble de données. Issu du projet UMINER, l'outil gère la notion d'incertitude et garantit une mise en oeuvre de qualité des principales opérations de data mining. Les systèmes de data mining sont largement utilisés, notamment dans les domaines de la banque électronique, des services d'assurance et de la gestion globale des réseaux d'information.

Une clusterisation de l'ensemble de données considéré précède l'extraction de données à partir de bases de données volumineuses. En termes simples, la clusterisation des données consiste à subdiviser le vaste ensemble de données d'origine en sous-groupes libellés de volume inférieur. Jusqu'à présent, la clusterisation des données était définie par un algorithme de segmentation basé sur un nombre de clusters et de sous-groupes sélectionnés à priori. L'outil UMINER définit quant à lui un nombre optimal de clusters pour l'ensemble de données considéré. Les partenaires de recherche ont développé une méthodologie d'extraction des schémas de clusterisation optimaux basée sur des algorithmes de segmentation déjà bien connus combinés à des mesures qualitatives optimisant le schéma de clusterisation créé.

Les clusters optimaux issus du processus de clusterisation précédent forment des catégories sous-tendant la probabilité de classification. La logique floue est utilisée pour représenter et manipuler cette probabilité. On dispose ainsi d'un schéma permettant de classifier dans des catégories sous-tendant la probabilité de classification les valeurs d'attribut n'appartenant à aucune catégorie.

Autre fonctionnalité novatrice, l'outil de data mining présenté fournit des mesures d'information d'aide à la décision. Ces mesures du schéma de classification s'appuient sur la fonctionnalité de mesure. Cette fonctionnalité répercute la quantité d'informations présente dans un ensemble flou. Les mesures d'information fournissent une base permettant d'extraire les connaissances "utiles" à la réflexion et à la prise de décision. Gérer l'incertitude en termes de probabilité en améliorant les processus de data mining constitue l'avantage majeur du système.

A ce stade d'avancement, les partenaires du projet ont élaboré et mis en oeuvre les principales étapes de cette nouvelle approche: un cadre d'extraction s'appuyant sur des règles de clusterisation, de classification et d'association à destination des grandes bases de données relationnelles et qui gère l'incertitude en termes de mesures de probabilité lors des opérations de data mining. Dans un avenir proche, de nouveaux modules seront développés pour le système et les règles de clusterisation et de classification seront intégrées à un système de data mining innovant totalement fonctionnel.

Informations connexes

Résumé de rapport

Numéro d'enregistrement: 80336 / Dernière mise à jour le: 2005-09-18
Domaine: TI, Télécommunications