Servicio de Información Comunitario sobre Investigación y Desarrollo - CORDIS

Prototipo para tareas de minería de datos

Se ha presentado un catálogo nuevo de herramientas y técnicas diseñadas para manipular grandes volúmenes de datos y obtener información y conocimientos clave a partir de nutridos depósitos de datos. Desgraciadamente, los planteamientos vigentes de las aplicaciones de minería de datos desatienden el requisito de más importancia, esto es, el de exponer y manejar la incertidumbre en el marco de las tareas de minería de datos. Ahora, una línea de investigación reciente ha generado una herramienta de minería de datos, prototipo que corrige los problemas de evaluación de la calidad y gestión de la incertidumbre.
Prototipo para tareas de minería de datos
El prototipo desarrollado por este proyecto de investigación consiste en un sistema cliente/servidor, de lenguaje Java y conectado con un conjunto de datos. La herramienta, fruto de un proyecto titulado UMINER, controla la incertidumbre y garantiza la calidad al llevar a cabo las tareas principales correspondientes a los procesos de minería de datos. Los sistemas de minería de datos son muy corrientes en particular en la banca, los seguros y la gestión de redes de información general.

A la extracción de datos procedentes de extensos bases de datos la precede la partición de la colección de datos de interés. Esta operación de partición viene a ser la división del cúmulo original de datos entre subconjuntos etiquetados de volumen inferior. Hasta la fecha, la partición de una colección de datos venía determinada por un algoritmo de agrupamiento basado en un número elegido "a priori" de grupos o subconjuntos. En cambio, la herramienta UMINER define el número óptimo de grupos correspondientes a una colección de datos determinada. Los socios de la investigación han concretado una metodología de extracción de procedimientos de agrupamiento óptimo partiendo de los algoritmos de agrupamiento conocidos y aceptados, junto con medidas de calidad encaminadas a perfeccionar los procedimientos de agrupamiento así generados.

Los grupos óptimos definidos mediante el proceso de agrupamiento anterior forman categorías encargadas de mantener la coherencia de la clasificación. Para representar y ejecutar dicha coherencia se recurre a la lógica borrosa. Así, se ha ajustado un programa de tipificación de valores de atributos no categóricos entre categorías que mantienen la coherencia de la clasificación.

Otro rasgo innovador de la herramienta de minería de datos propuesta hay que verlo en que facilita medidas de información a efectos de toma de decisiones. Las mediciones destinadas al programa de clasificación se apoyan en la función métrica de energía. Esta función refleja la cantidad de información recogida en un conjunto borroso. Las mediciones de información sientan las bases de la extracción de conocimientos "útiles", propicios a la reflexión y la toma de decisiones. Dominar la incertidumbre en términos de coherencia potenciando los procesos de minería de datos es la ventaja más sobresaliente del sistema.

A estas alturas del proyecto, los socios han diseñado y desarrollado las etapas clave de este planteamiento nuevo: un marco de extracción de normas de asociación, clasificación y agrupamiento para grandes bases de datos relacionales, capaz de manejar la incertidumbre en términos de medidas de coherencia en las tareas de minería de datos. En el futuro próximo el sistema se dotará con módulos nuevos y las normas de agrupamiento y clasificación se irán integrando en un sistema innovador de minería de datos totalmente funcional.

Información relacionada

Informe resumido

Número de registro: 80336 / Última actualización el: 2005-09-18
Dominio: TI, Telecomunicaciones