Forschungs- & Entwicklungsinformationsdienst der Gemeinschaft - CORDIS

Prototyp für ein Datamining-Tool

Zur Handhabung großer Datenmengen und zur Gewinnung nutzbarer Informationen aus großen Datenbeständen wurden bereits verschiedene Tools und Techniken entwickelt. Leider werden jedoch die heutigen Konzepte für Datamining-Anwendungen der wichtigsten Anforderung nicht in ausreichendem Maße gerecht. Diese besteht im Aufspüren und Berücksichtigen von Unsicherheitseinflüssen beim Datamining. In der aktuellen Forschungsarbeit wurde ein Prototyp für ein Datamining-Tool implementiert, das die Problemkreise "Qualitätsbewertung" und "Unsicherheitsfaktoren" angemessen berücksichtigt.
Prototyp für ein Datamining-Tool
Bei dem im Rahmen des aktuellen Forschungsprojekts entwickelten Tool-Prototyp handelt es sich um ein in Java implementiertes und mit einer Datenbank gekoppeltes Client/Server-System. Dieses Tool - Ergebnis eines Projekts namens UMINER - berücksichtigt bei der Abwicklung der Hauptaufgaben von Datamining-Prozessen Unsicherheitsfaktoren und garantiert die Qualität der gefundenen Daten. Datamining-Systeme kommen besonders im Electronic Banking, bei Versicherungs-Dienstleistungen und im Management von allgemeinen Datennetzen verbreitet zum Einsatz.

Vor der Extraktion von Daten aus großen Datenbanken erfolgt eine Partitionierung des relevanten Datensatzes. Unter der Datensatz-Partitionierung versteht man, einfach ausgedrückt, die Unterteilung des zunächst riesigen Datensatzes in kleinere, indizierte Unterdatensätze. Bislang erfolgte das Partitionieren von Datensätzen über einen Clustering-Algorithmus auf der Basis einer zuvor ausgewählten Anzahl von Clustern oder Unterdatensätzen. Im Gegensatz dazu legt das UMINER-Tool die optimale Clusterzahl für den gegebenen Datensatz fest. Die Forschungspartner haben eine Methodik für die Extraktion optimaler Clustering-Verfahren entwickelt, die auf bewährten und bekannten Clustering-Algorithmen basieren und in Verbindung mit Qualitätssicherungsverfahren zur Optimierung des erzeugten Clustering-Verfahrens angewendet werden.

Die im vorangegangenen Clustering-Verfahren definierten optimalen Cluster bilden Kategorien entsprechend der mutmaßlichen Klassifizierung. Letztere wird nach Methoden der Fuzzy-Logik aufgestellt und manipuliert. Somit steht nun ein systematisches Verfahren zur Klassifizierung von nichtkategorischen Attributwerten in Kategorien zur Verfügung, die der mutmaßlichen Klassifizierung entsprechen.

Ein weiteres innovatives Merkmal des vorgeschlagenen Datamining-Tools ist, dass es Größen zur Unterstützung von Entscheidungen liefert. Diese Größen für das Klassifizierungsschema basieren auf der Energiemaßfunktion. Diese Funktion gibt die in einem Fuzzy-Datensatz enthaltene Informationsmenge an. Die Informationsgrößen bilden eine Basis für die Extraktion von "sachdienlichen" Informationen, die Schlussfolgerungen zulassen und das Treffen von Entscheidungen unterstützen. Die Berücksichtigung von Unsicherheitsfaktoren bei der mutmaßlichen Klassifizierung durch Verbesserung der Datamining-Prozesse ist der wichtigste Vorteil des Systems.

Bis jetzt haben die Projektpartner die wichtigsten Komponenten des neuen Konzepts entwickelt. Diese bilden ein Extraktions-Grundgerüst für die Clustering-, Klassifizierungs- und Zuordnungsregeln für große relationale Datenbanken, das Unsicherheiten bei den angenommenen Größen im Datamining berücksichtigt. In naher Zukunft werden neue Module für das System entwickelt und die Clustering- und Klassifizierungsregeln in ein voll funktionsfähiges, innovatives Datamining-System integriert.

Verwandte Informationen

Berichtzusammenfassung

Datensatznummer: 80336 / Zuletzt geändert am: 2005-09-18
Bereich: IT, Telekommunikation