Datenwissenschaft und Forschungsdatenmanagement
Über
Datenwissenschaft
Datenwissenschaft (Data-Science), ein multidisziplinäres Gebiet, das Mathematik, Statistik, Informatik und Fachwissen kombiniert, ist zu einem Eckpfeiler der wissenschaftlichen Forschung geworden und wird zur Analyse großer und komplexer Datensätze verwendet, um neue Muster, Trends und Erkenntnisse zu entdecken, die zu neuen Erkenntnissen und Fortschritten führen.
Die Forschung im Bereich der Atmosphären- und Klimawissenschaften erzeugt riesige Datenmengen, von globalen Fernerkundungsdaten bis hin zu hochaufgelösten langfristigen Klimasimulationen. Data-Science-Techniken wie maschinelle Lernalgorithmen, Data Mining, prädiktive Modellierung, statistische Analyse und Datenvisualisierung helfen den Forschern, diese Daten sinnvoll zu nutzen und verborgene Muster und Prozesse aufzudecken.
Zusätzlich zu konventionellen Data-Science-Tools wie Statistiken, die z. B. auf Ensemblesimulationen und maschinellem Lernen basieren, verwenden wir Ansätze wie erklärbares maschinelles Lernen, Storylines und kausale Netzwerke und Pfade.
Forschungsdatenmanagement
Forschungsdatenmanagement (Research Data Management, RDM) bezieht sich auf die Praktiken und Prozesse zur Erstellung, Organisation, Bewahrung und gemeinsamen Nutzung von Forschungsdaten in einer Weise, die eine effiziente und effektive Forschung unterstützt, die Reproduzierbarkeit fördert und das Potenzial zur Wiederverwendung von Daten maximiert. In der Wissenschaft spielt RDM eine entscheidende Rolle bei der Gewährleistung der Gültigkeit, Zugänglichkeit und Nutzbarkeit von Forschungsdaten. Effektive RDM-Praktiken helfen Forschern, atmosphärische Beobachtungs- und Klimasimulationsdaten während des gesamten Forschungslebenszyklus zu verwalten, von der Datenerfassung und -verarbeitung bis hin zur Analyse, Veröffentlichung und langfristigen Aufbewahrung.
Datenorganisation und Metadaten sind wesentliche Aspekte von RDM. Ordnungsgemäß organisierte Daten mit beschreibenden Metadaten gemäß den FAIR-Prinzipien und Community-Konventionen wie CF erleichtern Atmosphärenforschern das Auffinden, den Zugang und das Verständnis von Daten und verringern den Zeit- und Arbeitsaufwand für die Datenfindung und -wiederverwendung.
Die gemeinsame Nutzung von und der Zugang zu Daten sind wichtig, um die Wirkung und den Wert von Forschungsdaten zu maximieren. Die gemeinsame Nutzung offener Daten, bei der die Daten der Öffentlichkeit zugänglich gemacht werden, kann zu neuen Entdeckungen, Kooperationen und Innovationen führen. Der kontrollierte Datenaustausch, bei dem der Zugang auf bestimmte Personen oder Gruppen beschränkt ist, ist notwendig, um sensible oder vertrauliche Daten zu schützen.
Datensicherheit und Datenschutz sind entscheidend für den Schutz von Forschungsdaten und die Gewährleistung der Vertraulichkeit und des Schutzes der Privatsphäre von Forschungsteilnehmern. Zu wirksamen RDM-Praktiken gehören die Implementierung von Zugangskontrollen, Verschlüsselung und sicheren Datenübertragungsprotokollen.
Datenaufbewahrung und langfristiger Zugang sind entscheidend, um sicherzustellen, dass Forschungsdaten langfristig zugänglich und nutzbar bleiben. Zur ordnungsgemäßen Aufbewahrung von Forschungsdaten gehören die Verwendung zuverlässiger Speichermedien, die Erstellung von Sicherungskopien und die Umsetzung von Strategien zur Datenmigration im Zuge der technologischen Entwicklung.
In den letzten Jahren wurden auf internationaler Ebene Anstrengungen unternommen, die sogenannten FAIR-Prinzipien voranzutreiben, um die wichtigsten RDM-Themen anzugehen. FAIR-Daten sind Daten, die die Grundsätze der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit erfüllen.
Forschungsthemen
Die oben genannten Themen werden innerhalb des ICE-4 durch den Einsatz der Datenmanagementsoftware DataLad abgedeckt. Neben dem institutseigenen dezentralen internen Speicherplatz und der bei JSC gehosteten MeteoCloud haben die Wissenschaftler Zugang zu internen und externen Diensten auf Basis von Forgejo-Plattformen, die zur Versionierung, Bearbeitung und reproduzierbaren Verbreitung wissenschaftlicher Daten genutzt werden können. Das Atmospheric Data Research Information System (ATRIS) ist der externe Forgejo-Server des Instituts und kann zur Verbreitung von Daten und zur Erleichterung der wissenschaftlichen Forschung und datenzentrierten Entwicklung in einer zugangskontrollierten Umgebung genutzt werden. Für den internen Austausch zwischen wissenschaftlichen Gruppen stellen wir als ähnliche Plattform die Atmospheric Research Resources And Knowledge InfraStructure (ARRAKIS) zur Verfügung.
Alle veröffentlichten Datensätze werden bei Jülich Data registriert, um eine DOI zu erhalten, damit sie in wissenschaftlichen Kontexten referenzierbar sind.
Datensätze am ICE-4, die aus Beobachtungen und Laborexperimenten stammen und auf externe Datenplattformen wie MOSES, IAGOS oder die HALO DB hochgeladen werden, werden mit Metadaten angereichert, um sie so FAIR-konform wie möglich zu machen. Das Gleiche gilt für Daten, die im Rahmen numerischer Simulationen erstellt werden, die zumindest CF-konform sind.
Darüber hinaus wurde damit begonnen, elektronische Labornotizbücher (ELNs) in die Arbeitsabläufe der Labore einzubeziehen, um den gesamten Prozess der Datenerfassung, -verarbeitung und -veröffentlichung zu digitalisieren. Ziel ist es, Schnittstellen zwischen den ELNs und den Forgejo-Serverplattformen zu schaffen, um die digitalen Arbeitsabläufe den Mitarbeitern zur Verfügung zu stellen.