Cloud-Computing wird optimiert
Computernnutzer sind zunehmend mit der Suche nach Mitteln zum Speichern großer Datenmengen konfrontiert. Größere Festplatten erfüllen einige dieser Bedürfnisse, aber es gibt einen anwachsenden Trend zur Abspeicherung von Daten auf externen Speichersystemen. So sind die Unternehmen innerhalb nur weniger Jahre von Hardware auf derartige Cloud-Dienstleistungen Dritter umgestiegen. Das Aufkommen der Cloud-Infrastrukturen hat es außerdem möglich gemacht, riesige Datensätze mit Parallelverarbeitung zu analysieren, die in die neue virtuelle Umgebung integriert ist. Das Projekt "Cloud-based indexing and query processing" (CLOUDIX)(öffnet in neuem Fenster) übernahm MapReduce, um große Datensätze zu verarbeiten und zu erzeugen. Die während des Zweijahresprojekts durchgeführte innovative Forschungsarbeit erhöhte maßgeblich die Leistung von MapReduce. MapReduce ist ein Programmiermodell, das weithin für spezielle Berechnungen verwendet wird, wozu große Datenmengen wie etwa Internetanfrageprotokolle gehören. Es wird auch zur Ableitung verschiedener Arten von Daten einschließlich invertierten Indizes eingesetzt. Jedem logischen "Record" wird eine "Map"-Funktion zugewiesen, um einen Satz von Zwischenschlüsselwerten zu berechnen. Dann identifiziert ein "Reduce"-Prozess alle Werte, die den gleichen Schlüssel haben, um abgeleitete Daten auf geeignete Weise zu kombinieren. Die CLOUDIX-Forscher stellten Mechanismen zum Zugriff auf eine Untermenge der Eingabedaten bereit, anstelle alle Daten zu scannen, um das gleiche Resultat zu erzeugen. Im Einzelnen unterstützen erweiterte Algorithmen die vorzeitige Beendigung der Datenverarbeitung, wenn genügend Daten zur Erzeugung des korrekten Resultats abgerufen wurden. Es wurden die entscheidenden ersten Schritte hin zu einer Integration effizienter Ranking-Verfahren unternommen, um die Resultate nach ihrer Relevanz zu sortieren. Im Lauf des CLOUDIX-Projekts wurden verschiedene Ansätze kombiniert, um die Mängel des bedeutendsten Frameworks für parallele Abfrageverarbeitung in der Cloud abzustellen. Andererseits sind seine Verdienste die Skalierbarkeit, die Fehlertoleranz, der Belastungsausgleich und vor allem die Einfachheit. Die in von Experten begutachteten Fachzeitschriften veröffentlichten CLOUDIX-Resultate werden nun dazu beitragen, den Wissenschaftlern und Fachleuten bei der Analyse großer Datenmengen Arbeitszeit einzusparen.
Schlüsselbegriffe
Abfrage, Cloud-Computing, Rechnerwolke, Festplatte, Speicher, Cloud, Parallelverarbeitung, MapReduce, invertierter Index, Algorithmus