Servizio Comunitario di Informazione in materia di Ricerca e Sviluppo - CORDIS

Strumento prototipo per il data mining

A tutt'oggi sono stati sviluppati diversi strumenti e tecniche per la gestione di grandi quantità di dati e l'individuazione di informazioni e conoscenze pertinenti nell'ambito di grandi banche dati. Purtroppo, gli attuali approcci delle applicazioni di data mining non soddisfano il requisito più importante, ovvero la segnalazione e la gestione dell'incertezza nello svolgimento delle funzioni di esplorazione dei dati. Nell'ambito del presente progetto di ricerca è stato elaborato uno strumento prototipo capace di svolgere compiti di data mining, risolvendo i problemi di valutazione della qualità delle informazioni e di gestione dell'incertezza.
Strumento prototipo per il data mining
Lo strumento prototipo sviluppato nell'ambito dell'attuale progetto di ricerca consiste in un sistema client/server in linguaggio Java, collegato ad un insieme di dati. Frutto di un progetto denominato "UMINER", questo strumento è in grado di gestire l'incertezza ed assicurare la qualità nello svolgimento dei principali compiti dei processi di data mining. I sistemi di data mining sono ampiamente utilizzati soprattutto nel settore dell'e-banking, dei servizi assicurativi e della gestione generale delle reti di informazione.

L'estrazione delle informazioni da database di grandi dimensioni è preceduta da una segmentazione dell'insieme di dati pertinente. In sostanza, tale segmentazione consiste nella suddivisione dell'enorme massa di dati iniziale in sottoinsiemi di dimensioni inferiori, contrassegnati da un'etichettatura. Fino ad oggi la segmentazione di un data set avveniva mediante un algoritmo di clustering (raggruppamento) basato su un numero di cluster o sottoinsiemi selezionato a priori. Lo strumento messo a punto nell'ambito del progetto UMINER, invece, stabilisce il numero ottimale di cluster per un determinato insieme di dati. I partecipanti alla ricerca hanno sviluppato una metodologia per l'estrazione di schemi ottimali di aggregazione basati su algoritmi di clustering noti e consolidati, nonché misure di qualità per l'ottimizzazione dello schema di clustering prodotto.

I cluster ottimali, sviluppati utilizzando il suddetto processo di aggregazione, formano delle categorie che mantengono la classificazione belief (di credibilità), la cui rappresentazione e manipolazione si basa sulla logica fuzzy. Grazie a questo schema, pertanto, è possibile classificare i valori attributo non appartenenti a nessuna categoria, in categorie che supportano la classificazione belief.

Lo strumento di data-mining proposto offre un'altra importante funzione: fornisce misure di informazione per il processo decisionale. Tali misure per lo schema di classificazione si basano su una funzione metrica dell'energia, la quale riflette la quantità di informazioni contenuta in un insieme fuzzy. Le misure di informazione costituiscono la base per l'estrazione di conoscenze “utili” impiegabili ai fini del ragionamento e del processo decisionale. Il contributo alla gestione dell'incertezza in termini di belief, attraverso il miglioramento dei processi di data mining, costituisce il vantaggio più importante offerto dal sistema.

All'attuale stadio di sviluppo, i partecipanti al progetto hanno ideato e sviluppato le fasi principali del nuovo approccio. Si tratta di un quadro di estrazione basato sulle regole per il clustering, la classificazione e l'associazione dei dati per la ricerca in database relazionali di vaste dimensioni, capace di gestire l'incertezza in termini di misure di belief nell'ambito dei compiti di data mining. In un prossimo futuro, verranno sviluppati nuovi moduli per il sistema e si procederà all'integrazione delle regole di clustering e di classificazione in un sistema di data mining innovativo e completamente funzionale.

Informazioni correlate

Sintesi della relazione

Numero di registrazione: 80336 / Ultimo aggiornamento: 2005-09-18
Dominio: TI, Telecomunicazioni