"Data Mining" - wie man aus Daten Informationen gewinnt
Die zunehmende hochdynamische globale Wirtschaft erzeugt bei Unternehmen aller Branchen und Größen ein neues Informationsbedürfnis. Die Globalisierung der Geschäftstätigkeit erfordert dabei heute die kontinuierliche Analyse und das Management von Daten auf hohem Niveau, um Trends und komplexe Beziehungen erkennen zu können. "Data Mining" (DM) ist eine Methode zur Untersuchung von Daten auf bisher unbekannte Muster und Zusammenhänge. Solche Zusammenhänge lassen sich überprüfen, indem die entdeckten Muster auf neue Untergruppen von Daten angewandt werden. Eine wichtige Aufgabe beim Data Mining ist zum Beispiel die Entwicklung von deskriptiven Modellen, die neue Einsichten über zugrundeliegende Prozesse oder Verhaltensmuster erlauben. Es kann sich dabei auch um Vorhersagemodelle handeln, die aus einer Gleichung oder einem Regelwerk bestehen und die Vorhersage eines noch nicht gemessenen oder beobachteten Wertes aus bekannten Werten ermöglichen. Die durch Data Mining gewonnenen Erkenntnisse können dann in ein Entscheidungsunterstützungssystem ("Decision Support System", DS) eingegeben werden, das zur Unterstützung bei schwierigen Entscheidungsprozessen herangezogen wird. Gegenwärtig entsteht ein Standard zur Beschreibung solcher Data-Mining-Modelle unter der Bezeichnung "Predictive Mark-up Modelling Language" (PMML). PMML beschreibt Data Mining-Modelle mit Hilfe der "Extensible Mark-up Language" (XML), dem universellen Format für strukturierte Dokumente und Daten im Internet. Dieser Standard erleichtert den Austausch von Ergebnissen und die weitere Zusammenarbeit zwischen DM und DS. SolEuNet, ein Netzwerk von Expertenteams aus Wissenschaft und Wirtschaft, bietet Werkzeuge wie auch Beratung für das Data Mining und die Entscheidungsunterstützung an. Innerhalb des SolEuNet-Projekts wurde ein flexibel einsetzbares PMML-Visualisierungstool entwickelt, das eine Visualisierung und ein besseres Verständnis von PMML-Modellen erlaubt. Der Einsatz dieser Software erfordert keinerlei Kenntnisse über PMML-Modelle und macht den Kauf eines teuren und komplexen Data-Mining-Tools und das Erlernen seiner Anwendung überflüssig. Die Software kann an spezifische Bedürfnisse angepasst oder mit zusätzlichen Funktionen ausgestattet werden. Künftige Versionen werden auch das Editieren von PMML-Modellen ermöglichen.