Skip to main content

Article Category

Story

Article available in the folowing languages:

Feature Stories - Wie offene Daten und E-Infrastrukturen Ökosysteme schützen

Man nehme Karten, die etwas über die biologische Vielfalt der Meere aussagen, und verknüpfe sie mit Fangmengenaufzeichnungen - schon ergibt sich ein klares Bild, wo die Fischbestände am meisten gefährdet sind. Auf diese Weise könnte wohl ein wirksamer Beitrag zur Rettung der Weltmeere geleistet werden; allerdings ist es dazu erforderlich, riesige Mengen komplexer Daten zu verarbeiten und zu analysieren. EU-finanzierte Forscher lösen das Problem mit Hilfe eines innovativen, von der Natur selbst inspirierten Ansatzes für E-Infrastrukturen und suchen nach Wegen, wie auf offene Daten abzielende Initiativen einbezogen werden können.

Digitale Wirtschaft

Innerhalb von E-Infrastrukturen kommen Grid- und Cloud Computing zum Einsatz, um die Speicher-, Verarbeitungs- und Softwarefunktionalitäten einer Vielzahl verteilter Ressourcen nutzbar zu machen. So könnte zum Beispiel eine Forschergruppe auf einem Gebiet der Biologie eine E-Infrastruktur einrichten, um ein bestimmtes Problem zu untersuchen. Mit Hilfe einer E-Infrastruktur könnten die Biologen dann eine zur Zusammenarbeit geeignete virtuelle Forschungsumgebung (Virtual Research Environment, VRE) erschaffen und dabei Grid-Computing-Ressourcen nutzen, um Informationen aus einer Quelle zu verarbeiten und sie mittels Data-Mining-Softwaretools einer anderen Quelle zu analysieren. Aber was ist, wenn sie im Lauf ihrer Arbeit von ihren Daten zu Informationen anderer Forscher verweisen und dabei verschiedene Daten-, Software und Computersysteme oder sogar öffentlich zugängliche Datenressourcen nutzen wollen? "Ressourcen über verschiedene E-Infrastrukturen hinweg zusammenzuführen, ist sehr schwierig und zeitaufwendig, und erfordert in vielen Fällen den Aufbau einer neuen E-Infrastruktur, was weder zeit- noch kostengünstig ist", erläutert Donatella Castelli, Forscherin am Institut für Informationswissenschaften und -technologien des Nationalen Forschungsrats Italiens. Existieren die verschiedenen E-Infrastrukturen innerhalb eines Ökosystems, wo sie einander - ganz wie in der Natur - registrieren und miteinander kooperieren oder sogar konkurrieren können, wird dort die gemeinsame Nutzung von Ressourcen auf geradezu dramatische Weise einfacher, leichter und preiswerter. Genau diese Aussichten veranlassten ein Konsortium aus Universitäten, Forschungsinstituten, Unternehmen und einem UN-Gremium zum Start des D4Science-II-Projekts ("Data infrastructures ecosystem for science"). Das Projekt erstellte - unterstützt mit 4,3 Millionen EUR Finanzmitteln von der Europäischen Kommission - ein interoperables Rahmenwerk für E-Infrastrukturen. Hierbei handelt es sich um ein Ökosystem für E-Infrastrukturen, in dem Daten-, Rechen- und Softwareressourcen, die zu verschiedenen E-Infrastrukturen gehören, unabhängig vom Standort, von der Technologie, vom Format, von der Sprache, vom Protokoll oder Arbeitsablauf gemeinsam genutzt werden können. Die Interoperabilität zwischen den E-Infrastrukturen in dem Wissensökosystem à la D4Science-II wird auf zwei Wegen gewährleistet: durch die Nutzung gemeinsamer Standards zwischen den E-Infrastrukturen und vor allem durch den sogenannten "Mediationsrahmen". Diese Mediation Frameworks bestehen aus Software, die heterogene Daten und Prozesse auf eine solche Weise umwandelt und transformiert, dass sie in verschiedenen Kontexten von verschiedenen E-Infrastrukturen verwendet werden können und so eine Zusammenarbeit möglich wird. Rückgrat des Systems ist gCube, ein skalierbares Softwareframework, das Interoperabilität ermöglicht und vom ungarischen Projektpartner 4D SOFT getestet wurde. Die D4Science-E-Infrastruktur vereint nicht nur Ressourcen und sorgt für deren Interoperabilität, sondern bietet gleichermaßen an, sie wieder zu anderen E-Infrastrukturen zurückzusetzen, so dass sie einen dynamischen Zugriff auf Daten, Softwaretools und Rechenleistung gestattet. "In diesem Sinne können die E-Infrastrukturen innerhalb des Ökosystems konkurrierend sein. Die Forscher können aus den zur Verfügung stehenden Ressourcen diejenigen auswählen, die ihren Anforderungen zu einem bestimmten Zeitpunkt am besten entsprechen", so Dr. Castelli. Die Kraft eines solchen Ansatzes zeigt sich in den virtuellen Forschungsumgebungen und in den gCube-Anwendungen (offen zugängliche virtuelle Forschungsumgebungen), die als Teil des D4Science-II-Projekts aufgebaut wurden und unter D4Science-Portal zur Verfügung stehen. "D4Science-II hat seinen Ursprung in zwei früheren Projekten, DILIGENT und D4Science, die mit der Entwicklung von Infrastrukturen für digitale Bibliotheken begannen, die auf einer gridfähigen E-Infrastruktur aufbauten. Wir stellten jedoch fest, dass für bestimmte Zwecke bereits viele E-Infrastrukturen existieren, und erkannten, dass es besser ist, die vorhandenen Ressourcen zu nutzen und sie dazu zu bringen, gemeinsam zu arbeiten, anstatt jedes Mal eine neue E-Infrastruktur aufzubauen. Unser Fokus in D4Science-II verlagerte sich daher von der Entwicklung von E-Infrastrukturen hin zum Aufbau eines E-Infrastruktur-Ökosystems" erklärt Dr. Castelli. Von Biodiversität und Fischerei zur Hochenergiephysik ... Das Ökosystem wurde für unterstützende virtuelle Forschungsumgebungen in Bereichen wie der Hochenergiephysik, Biodiversität, Fischerei und Aquakulturressourcen eingesetzt. Es konnte dazu beitragen, neue Forschungsfelder zwischen diesen zu eröffnen und wird nun auf neue Gebiete ausgeweitet. AquaMaps, ein Projekt zur Erstellung globaler Verteilungskarten der im Meer lebenden Arten unserer Erde, nutzt Grid-und Daten-E-Infrastrukturressourcen mittels einer virtuellen Forschungsumgebung, die auf der D4Science-Infrastruktur aufbaut. Die Generierung hochauflösender Karten, welche die Verteilung von Fischarten darstellen, ist eine rechenintensive Aufgabe: Für die Aufzeichnung einer einzigen Karte mit mehreren Arten sind 125 Millionen Berechnungen erforderlich. Ohne eine gridfähige E-Infrastruktur könnte die Erzeugung der Kartensammlung, die zur Unterstützung der Forschungstätigkeit notwendig ist, Tage dauern; nutzt man Grid-Computing, ist die Sache innerhalb weniger Stunden erledigt. Innerhalb des D4Science-Ökosystems konnten drei separate, aber miteinander im Zusammenhang stehende virtuelle Forschungsumgebungen, die mit den Fischereidaten arbeiten, Informationen und Ressourcen nutzen, die von den verschiedenen Daten-E-Infrastrukturen (GENESI-DEC für Erdbeobachtungsdaten, GBIF für Biodiversitätsdaten und FIGIS für Informationen in Bezug auf Fischerei) bereitgestellt wurden. Ausgestattet mit diesen Fähigkeiten konnten die Wissenschaftler innovative statistische Analyseverfahren durchführen, die vorher schlicht nicht möglich waren. Damit konnten zum Beispiel Informationen über Fischarten und Fangorte mit umweltbezogenen Daten und Geodaten kombiniert werden. "Wir sammeln Statistiken zu allen Arten von Fischerei aus sämtlichen Ländern, die eine breite Vielfalt von Datenqualitäten haben. D4Science hilft uns dabei, all diese Daten zu vereinen", merkt Anton Ellenbroek von der Abteilung für Fischerei und Aquakultur der Ernährungs- und Landwirtschaftsorganisation der Vereinten Nationen (Food and Agriculture Organization of the United Nations, FAO) in Rom an. "Hierbei handelt es sich um eine wirklich wichtige Infrastruktur ... sie ermöglicht es uns, Statistiken auf eine Weise, die vorher gar nicht möglich war, zu analysieren, und wir können sie ohne Weiteres gemeinsam mit anderen virtuellen Forschungsumgebungen nutzen." Die FAO veranstaltete außerdem einen Projekt-Workshop mit dem Titel "Digital Repositories - Linked Open Data", um Lösungen zur Veröffentlichung digitaler Repositorien als verlinkte offene Daten unter Nutzung modernster Instrumente wie etwa der von D4Science erschaffenen virtuellen Forschungsumgebungen zu überprüfen. Der Erfolg der virtuellen Forschungsumgebungen im Umgang mit Fischerei- und Biodiversitätsdaten in D4Science-II inspirierte zu zwei Folgeprojekten auf diesem Gebiet. Bei i-Marine wenden die Forscher den Ökosystemansatz im Fischereimanagement und zur Erhaltung der Meeresumwelt an, wobei sie eine offene Plattform auf Basis der D4Science-Infrastruktur nutzen, um mit etlichen Wissens- und Datenquellen zu arbeiten, die viel breiter als beim herkömmlichen Fischereimanagement angelegt sind. "EU-Brazil open data and cloud computing e-Infrastructure for biodiversity", das Projekt EUBrazilOpenBio , steht für die Nutzung des E-Infrastruktur-Ökosystemansatzes durch europäische und brasilianische Forscher zur Erstellung einer Open-Access-Plattform, die bestehende europäische und brasilianische E-Infrastrukturen und Ressourcen für die Biodiversitätswissenschaft integriert. "Die Zusammenarbeit über E-Infrastrukturen eröffnet völlig neue Möglichkeiten und Forschungsgebiete. Wir können nun zum Beispiel wissenschaftliche Daten vor dem Hintergrund ökonomischer Statistiken analysieren, um eine komplett neue Perspektive zu gewinnen, die bisher nicht verfügbar war", betont Dr. Castelli. Nützliche Links: - Projektwebsite "Data infrastructures ecosystem for science" - D4Science-II-Factsheet auf CORDIS - Projektwebsite "EU-Brazil open data and cloud computing e-Infrastructure for biodiversity" - EUBrazilOpenBio-Factsheet auf CORDIS - Rede der Vizepräsidentin der Kommission, Neelie Kroes, zum Thema offene Daten Weiterführende Artikel: - Fortschritte bei der wissenschaftlichen Revolution elektronischer Ressourcen durch D4Science-ll - Arbeit an europaweiter Grid-Infrastruktur erreicht nächste Stufe - Grid-Computing im Kampf gegen Alzheimer - Europäisches EELA-Projekt fördert Grid-Infrastruktur in Lateinamerika, Nachfolger EELA-2 sorgt für Nutzerzuwachs