Ottimizzare il cloud computing
Chi usa i computer ha la continua esigenza di trovare modi di conservare vaste quantità di dati. Hard drive più grandi soddisfano una parte di queste esigenze ma si tende sempre di più a memorizzare i dati su un sistema esterno. In appena un paio d'anni, le aziende sono passate dall'hardware a questi servizi cloud esterni. L'avvento delle infrastrutture cloud ha anche reso possibile l'analisi di enormi collezioni di dati con l'elaborazione parallela integrata nel nuovo ambiente virtuale. Il progetto CLOUDIX(si apre in una nuova finestra) ("Cloud-based indexing and query processing") ha adottato MapReduce per elaborare e generare grandi collezioni di dati. L'innovativo lavoro di ricerca svolto durante questo progetto biennale ha aumentato significativamente le prestazioni di MapReduce. MapReduce è un modello di programmazione usato per computazioni con fini speciali di grandi quantità di dati come i log delle richieste web. È usato anche per derivare vari tipi di dati come per esempio gli indici invertiti. Una funzione di "mappa" è applicata a ogni "registrazione" logica per calcolare una serie di valori chiave intermedi. Quindi un processo di "riduzione" identifica tutti i valori che condividono la stessa chiave per associare i dati derivati in modo appropriato. I ricercatori di CLOUDIX hanno fornito i meccanismi per accedere a sottocollezioni dei dati inseriti, invece di analizzare tutti di dati per produrre lo stesso risultato. In particolare, algoritmi avanzati sostengono l'interruzione precoce dell'elaborazione dei dati quando sono stati aperti abbastanza dati da produrre il risultato corretto. Sono stati fatti anche i primi passi decisivi verso l'integrazione di tecniche di ranking efficienti per organizzare i risultati a seconda della loro rilevanza. Durante il progetto CLOUDIX, sono stati associati diversi metodi per risolvere i difetti dello schema più conosciuto per l'elaborazione parallela delle richieste sul web. D'altra parte, tra i suoi meriti ci sono la scalabilità, la tolleranza degli errori, l'equilibrio del carico e prima di tutto la semplicità. I risultati di CLOUDIX, pubblicati su riviste sottoposte a revisione paritaria, dovrebbero aiutare gli scienziati e i professionisti a risparmiare ore di lavoro nell'analisi di grandi collezioni di dati.