Big Data Analytics
In der Wissenschaft erzeugen immer genauere Versuchsgeräte, Messsysteme und Computersimulationen immer größere Berge an Daten. Das Jülich Supercomputing Centre (JSC) kommt alleine bei Simulationen auf rund 20 Petabyte Daten pro Jahr – das entspricht 20 Millionen Gigabyte oder dem Inhalt von 20.000 Festplatten. Bei solchen Datenmengen sprechen Experten von Big Data: von Daten, die sich mit manuellen und herkömmlichen Methoden nicht mehr auswerten lassen.
Die Verarbeitung dieser Daten stellt nicht nur besondere Anforderungen an die Hard- und Software. Sie erfordert auch generell neue Wege, auf denen Forschungsdaten erhoben, geordnet und ausgetauscht werden. Das Forschungszentrum Jülich spielt eine zentrale Rolle beim Aufbau entsprechender Infrastrukturen und Standards. Die Entwicklung erfolgt in enger Zusammenarbeit mit Partnern innerhalb der Helmholtz-Gemeinschaft sowie in Kooperationen auf nationaler und internationaler Ebene.
Big Data überall
In allen Jülicher Fachbereichen fallen heute große Datenmengen an. Darunter sind die klassischen datenintensiven Disziplinen wie die Kernphysik oder die Klimaforschung. Aber auch die Elektronenmikroskopie, die Strukturbiologie und die automatisierte Bildauswertung in der Pflanzenforschung generieren Datenberge, die nicht mehr mit herkömmlichen Methoden auswertbar sind.
Die Klimadaten dienen dazu, langfristige Trends zu erkennen, zum Beispiel zur Luftverschmutzung oder zu Treibhausgasen. Solche globalen Daten und Erkenntnisse sind für Forscher weltweit von Interesse. Gerade beim Klima ist es wichtig, Daten aus verschiedenen Quellen zusammenzuführen – auch weil hier zahlreiche Faktoren ineinandergreifen: Böden, Pflanzen, Tiere, Mikroorganismen, Gewässer, Atmosphäre und alles, was der Mensch so treibt.
Europaweite Standards
Bislang werden solche Daten noch zu häufig getrennt voneinander erfasst und auch getrennt in Modelle gepackt. Das soll sich ändern: Mehrere groß angelegte europäische Infrastrukturprojekte zielen nicht nur auf die langfristige und gut strukturierte Sicherung der einzelnen Datenschätze ab, sondern zusätzlich auf deren Vergleichbarkeit.
Projektübergreifende Standards sind gefragt. Genau die will ENVRI-FAIR einführen, das europäische Infrastrukturprojekt für die Umweltwissenschaften. ENVRI steht für Environmental Research Infrastructures, denn alle etablierten europäischen Infrastrukturen der Erdsystemforschung sind an dem Vorhaben beteiligt – von lokalen Messstationen über mobile Geräte bis hin zu satellitengestützten Systemen. FAIR beschreibt die Ansprüche, wie Forscher künftig die Unmengen an Daten erfassen und speichern sollen: auffindbar (findable), zugänglich (accessible), untereinander austauschbar (interoperable) und wiederverwertbar (reusable).
Dr. Andreas Petzold vom Jülicher Institut für Energie- und Klimaforschung (IEK-8) koordiniert dieses Mammutprojekt, das für vier Jahre mit 19 Millionen Euro von der EU gefördert wird. „ENVRI-FAIR wird es uns ermöglichen, unterschiedliche Daten miteinander zu verknüpfen und in Beziehung zueinander zusetzen – die Grundlage dafür, dass aus unseren Big Data auch Smart Data werden, die für die Forschung, für Innovationen und die Gesellschaft nutzbar sind“, betont er. Damit möglichst viele Forscher auf die Datenschätze zugreifen können, ist wie bei allen anderen europäischen Infrastrukturprojekten ein offener Zugriff über die European Open Science Cloud geplant, die gerade aufgebaut wird.
Unterstützung von IT-Spezialisten
Um solche ambitionierten Pläne zu verwirklichen, benötigen die Fachwissenschaftler die Unterstützung von IT-Spezialisten – beispielsweise für den anstehenden Ausbau von IT-Infrastrukturen sowie Datenverwaltungs- und Computerzentren. Am Forschungszentrum Jülich steht das Jülich Supercomputing Centre (JSC) als Partner mit weitreichender Expertise zur Verfügung: Es bietet unter anderem zwei Höchstleistungsrechner, passende Rechenverfahren, gewaltige Speicherkapazitäten von mehreren Hundert Petabyte und rund 200 Experten zu verschiedensten Themen. Das JSC unterstützt ENVRI-FAIR beispielsweise beim Aufbau eines automatisierten Managements der großen Datenströme. Eines der Hauptthemen ist dabei der Datenzugriff. Denn immer öfter geht es heute darum, bei internationalen Projekten mit vielen Kooperationspartnern sicherzustellen, dass große Datensätze – und die daraus gezogenen Schlüsse – von allen beteiligten Forschergruppen durchleuchtet und verifiziert werden können. Dafür werden in Jülich neue Rechnerarchitekturen entwickelt, die Big Data besonders gut bewältigen und auswerten können. Um den Austausch zwischen Spezialisten für Hochleistungsrechner und Fachwissenschaftlern zu verbessern, hat das JSC außerdem sogenannte Simulation Laboratories eingerichtet, in denen die verschiedenen Experten eng zusammenarbeiten. Sie unterstützen Forscher beim allgemeinen Umgang mit Big Data und bei der Auswertung – auch mithilfe von maschinellem Lernen.
„Die Experten für Machine Learning und die Spezialisten für Hochleistungsrechner wissen, wie sich große Datenmengen mit den Supercomputern auswerten lassen. Fachwissenschaftler wie Biologen, Mediziner oder Werkstoffwissenschaftler können ihrerseits die sinnvollen Fragen an ihre spezifischen Daten stellen und die erzeugten Antworten bewerten lassen. Bei solcher Zusammenarbeit können so lernfähige Modelle – wie beispielsweise tiefe neuronale Netzwerke – mit den vorhandenen Daten trainiert werden, um Prozesse in der Atmosphäre, in biologischen Systemen, in Werkstoffen oder in einem Fusionsreaktor vorherzusagen“, erklärt Dr. Jenia Jitsev, Spezialist für Deep Learning und Maschinelles Lernen am JSC.
Einer der Jülicher Forscher, die eng mit dem JSC zusammenarbeiten, ist Dr. Timo Dickscheid, Leiter der Arbeitsgruppe Big Data Analytics vom Jülicher Institut für Neurowissenschaften und Medizin (INM-1). Auch in seinem Institut fallen enorm viele Daten an, denn es geht um das komplexeste Gebilde des Menschen: das Gehirn. „Wir entwickeln dafür ein dreidimensionales Modell, das sowohl strukturelle als auch funktionelle Organisationsprinzipien berücksichtigt“, so der Informatiker.
Er hat bereits an BigBrain mitgearbeitet, einem 3D-Modell, das aus Mikroskopaufnahmen von Gewebeschnitten des menschlichen Gehirns zusammengebaut wurde. 7.404 hauchdünne Schnitte hatten die Jülicher Hirnforscher dafür gemeinsam mit einem kanadischen Forscherteam in über 1.000 Arbeitsstunden präpariert und digitalisiert.
Durchs Gehirn surfen
„Dieses 3D-Gehirnmodell ist rund ein Terabyte groß“, berichtet Dickscheid, „da ist es bereits eine Herausforderung, den Bilddatensatz flüssig auf dem Bildschirm darzustellen – ganz abgesehen von aufwendigen Bildanalyseverfahren, die diesen Datensatz auf den Jülicher Supercomputern automatisch analysieren und so Stück für Stück dreidimensionale Karten der unterschiedlichen Hirnareale hinzufügen.“ Eine manuelle, lückenlose Einzeichnung dieser Areale durch die Wissenschaftler ist bei diesen Datengrößen nicht mehr machbar. Drei Jahre lang haben er und seine Kollegen intensiv programmiert und sich mit dem JSC ausgetauscht.
Das Ergebnis: Trotz der großen Datenbasis ermöglicht das Programm es, geschmeidig durch das Gehirn zu surfen und bis auf die Ebene von Zellverbänden zu zoomen. Der Trick: „Wir stellen dem Anwender nicht den ganzen Datensatz in voller Auflösung zur Verfügung, sondern nur den kleinen Teil, den er gerade anschaut“, erklärt Dickscheid. „Und zwar in Echtzeit“, fügt er hinzu. Das BigBrain-Modell und die 3D-Karten sind ein Paradebeispiel für geteilte Big Data. Sie können mittlerweile von jedermann im Internet angeklickt, gedreht, gezoomt und bestaunt werden. Wissenschaftler aus aller Welt nutzen das. Denn durch die dreidimensionale Darstellung können sie räumliche Zusammenhänge in der komplizierten Architektur des menschlichen Gehirns weitaus besser beurteilen als bisher – und neue Erkenntnisse gewinnen. Niederländische Wissenschaftler etwa wollen mit dem Atlas die Sehrinde des Menschen auf zellulärer Ebene besser verstehen und mit diesem Wissen Neuroimplantate für Blinde verfeinern.
„Ergebnisse wie unsere verschiedenen Gehirnkarten allen zugänglich zu machen, ist ein Grundpfeiler der Wissenschaft“, sagt Professorin Katrin Amunts, Direktorin am Institut für Neurowissenschaften und Medizin und Dickscheids Chefin. Die zugrunde liegenden Daten öffentlich zur Verfügung zu stellen, zwingt aber zu einem Paradigmenwechsel in der Forschung: „Veröffentlichungen von wissenschaftlichen Studien spielen im Moment noch eine sehr viel größere Rolle als Veröffentlichungen von Daten. Wir müssen uns in der Forschergemeinschaft darauf einigen, dass die Urheber der Daten gleichberechtigt neben den Autoren einer wissenschaftlichen Publikation genannt und zitiert werden. Auch hier sind FAIR Data ein ganz zentraler Punkt, Daten sollen findable, accessible, interoperable und reusable sein; ein Ansatz, den das Human Brain Project aktiv voranbringt“, betont Amunts. Denn Veröffentlichungen sind die Währung, mit der in der Forschung gehandelt und Karriere gemacht wird.
Digitale Plattform für die Hirnforschung
Ein echtes Big-Data-Projekt ist auch die Entwicklung der EBRAINS-Infrastruktur, die Jülicher Forschende im Rahmen des europäischen Human Brain Projects geschaffen haben. Die frei zugängliche digitale Plattform ermöglicht es, verschiedenartige Informationen über das menschliche Gehirn räumlich präzise zu verknüpfen – beispielsweise zum strukturellen Aufbau und funktionelle Aspekte. Rückgrat der Datensammlung ist ein am Forschungszentrum Jülich erstellter 3D-Atlas des menschlichen Gehirns, der auf der Auswertung zehntausender Hirnschnitte beruht und erstmals die Variabilität der Gehirnstruktur mit mikroskopischer Auflösung abbildet.
Nationale und internationale Kooperationen
Weitere Schwerpunkte liegen im Aufbau der europäischen Dateninfrastruktur EUDAT sowie der Helmholtz Data Federation – einer neuartigen Infrastruktur für Forschungsdaten der Helmholtz-Gemeinschaft – sowie der nationalen Forschungsdateninfrastruktur NFDI der Deutschen Forschungsgemeinschaft DFG (>>Pressemitteilung), an denen das Forschungszentrum Jülich maßgeblich beteiligt ist.
Copyright Fotos: Forschungszentrum Jülich/Ralf-Uwe Limbach, Axer et al., Forschungszentrum Jülich, Human Brain Project
Beitrag aus effzett-Magazin 2-19, Aus Daten wird Wissen