Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
Contenido archivado el 2024-06-18
CloudIX: Cloud-based Indexing and Query Processing

Article Category

Article available in the following languages:

Optimizar la computación en nube

La computación en nube ha revolucionado el panorama de las tecnologías de la información (TI) al proporcionar recursos de computación asequibles. Un proyecto financiado con fondos europeos desarrolló herramientas capaces de consultar sólo los datos más útiles de distintos corpus en la nube.

Los usuarios de ordenadores se enfrentan a cantidades ingentes de datos que han de almacenar. Los discos duros de mayor tamaño alivian esta necesidad en cierto grado, pero cada vez son más los datos que se archivan en sistemas de almacenamiento situados fuera de las instalaciones de la entidad interesada. En pocos años se ha experimentado un cambio en el entorno empresarial por el que cada vez son más los que optan por prescindir del hardware y basarse en servicios en la nube de terceros. La irrupción de las infraestructuras en nube también ha permitido analizar corpus gigantescos al integrar técnicas de procesamiento en paralelo en los nuevos entornos virtuales. El proyecto «Cloud-based indexing and query processing» (CLOUDIX)(se abrirá en una nueva ventana) adoptó el modelo de programación MapReduce para procesar y generar grandes corpus de datos. El trabajo de investigación puntero realizado durante este proyecto de dos años de duración logró mejorar considerablemente el rendimiento de MapReduce. MapReduce es un modelo de programación popular para computaciones específicas de grandes cantidades de datos como por ejemplo en los registros de peticiones web. También se emplea para derivar distintos tipos de datos, como por ejemplo los índices invertidos. Una función de «mapa» se aplica a cada «registro» lógico para computar un conjunto de valores intermedios clave. A continuación, un proceso de «reducción» identifica todos los valores que comparten la misma clave para combinar de manera adecuada los datos derivados. Los investigadores de CLOUDIX generaron mecanismos para acceder a un subconjunto de los datos de entrada para así evitar escanear todos los datos y obtener el mismo resultado. En concreto, los algoritmos avanzados creados permiten detener de manera anticipada el procesamiento de datos cuando se cuenta con datos suficientes como para producir un resultado correcto. Ya se han dado los pasos decisivos para integrar técnicas de clasificación eficientes con las que ordenar resultados en función de su relevancia. En el proyecto CLOUDIX se combinaron distintos métodos con los que abordar las limitaciones del marco más popular para ejecutar procesamientos de solicitudes en paralelo en la nube. A todo ello se han de sumar otras virtudes como la ampliabilidad, la tolerancia a fallos, el equilibrio de carga y, sobre todo, su sencillez. Los resultados de CLOUDIX, publicados en revistas científicas revisadas inter pares, contribuirán a que científicos y profesionales ahorren horas de computación dedicadas al análisis de grandes corpus de datos.

Descubra otros artículos del mismo campo de aplicación

Mi folleto 0 0