Suche

zur Hauptseite

Zentralbibliothek - Internet

Navigation und Service


Jülich DATA

Repositorium made at Jülich

Eine Plattform zur Datenpublikation

Überall auf der Welt entstehen zur Zeit Repositorien für Forschungsdaten. Ihre primäre Aufgabe ist, das Publizieren von Forschungsdaten zu ermöglichen. Wissenschaftler können ihre Daten dort hochladen und die Daten anderer herunterladen. So wird der Austausch von Wissen innerhalb der Wissenschaft gefördert, der unabdingbar ist, um effektiv den Fortschritt zu gewährleisten.

In den meisten Fällen sind hochgeladene Daten mit einer Textpublikation verknüpft. Die Textpublikation beschreibt das wissenschaftliche Ergebnis in menschenlesbarer Form, und die Datenpublikation unterfüttert es mit maschinenlesbaren Informationen. Es kann aber auch sinnvoll sein, Daten ohne Textpublikation zu veröffentlichen. In beiden Fällen müssen die Daten Dokumente beinhalten, die sie beschreiben. Nur so ist gewährleistet, dass andere Forscher – unter Umständen Jahre später – damit etwas anfangen können.

Hochgeladene Daten werden auf Jülich DATA automatisch mit einer DOI versehen. Auf diese Weise werden die Daten zitierbar. Nicht nur die dazu gehörende Journal-Publikation kann auf sie verweisen, auch andere Journal-Artikel oder andere Datenpublikationen können diese DOI in ihren Zitaten aufführen. Dies schafft einen wirkungsvollen neuen Publikationskanal, der die Sichtbarkeit der Forschung erhöht.

Eine Plattform zur Datennachnutzung

Klickt jemand auf der Welt auf eine Jülicher DOI, landet er auf einer so genannten Landing Page in Jülich DATA. Dort sieht er beschreibende Informationen, und er kann entweder die Daten direkt herunterladen oder dem verantwortlichen Institut eine Anfrage zur Nachnutzung stellen, je nachdem, was der Urheber der Daten ausgewählt hat. Wissenschaftler können so die Ergebnisse ihrer Kollegen überprüfen, reproduzieren und eventuell in eigener Forschung nutzen.

Dennoch hat ein Repositorium einen Anspruch, der über dieses reine Bereitstellen von Daten hinausgeht. Zum Beispiel soll man in den in ihm gespeicherten Daten recherchieren können. Dadurch wird es möglich, Daten anderer Forscher zu finden, die man als Grundlage für eigene Wissenschaft nachnutzen kann, ohne bereits im Vorfeld von der Existenz dieser Daten zu wissen. Außerdem kann ein Repositorium Daten direkt im Browser in anschaulicher Weise visualisieren und so einen schnellen Eindruck geben, ob man fündig geworden ist. Und nicht zuletzt dient ein Repositorium auch als zuverlässiges Archiv, das hilft, die Gute Wissenschaftliche Praxis umzusetzen. Das umfasst die 10 Jahre garantierte Aufbewahrungszeit und qualitätsgesicherte Metadaten.

Flexible Metadaten: Managen der „Heißen Daten“

An einer Stelle geht Jülich DATA über die Möglichkeiten anderer Repositorien hinaus: Wir haben den Anspruch, nicht nur für publizierte Daten einen Hafen zu bieten, sondern auch für den so genannten Long-Tail der Daten bzw. die „Heißen Daten“. Das sind Daten, die noch nicht publiziert wurden, die u.U. erst gerade erzeugt wurden, und ebenso Daten, die ausdrücklich nicht publiziert werden sollen. Selbstredend garantieren Zugangsbeschränkungen, dass nur ein vom Urheber benannter Personenkreis Zugang hat. Auch nur dieser Personenkreis bekommt diese Daten in Suchergebnissen angezeigt. Heiße Daten müssen automatisiert von den daran interessierten Instituten an Jülich DATA übertragen werden. Für manuelles Einpflegen sind es zu viele.

Die große Herausforderung sind hierbei die Metadaten. Diese müssen nämlich äußerst flexibel in Jülich DATA gehandhabt werden. Für eine generelle Recherche in Forschungsdaten mögen Schlagworte reichen. Aber recherchiert ein Wissenschaftler in seinen Heißen Daten, möchte er auch nach Drücken und Temperaturen suchen können, nach Maus-Kohorten oder nach Probennummern. Also muss Jülich DATA mit unterschiedlichsten Metadaten-Schemas umgehen.

Zwiebelschalen-Modell hierarchischer Metadaten-Schemata

Die Abbildung zeigt unseren Weg dahin. Es gibt eine Vielzahl an Metadaten-Schemas in Jülich DATA, hier repräsentiert durch Kästchen. Diese Kästchen sind ineinander geschachtelt, da speziellere Schemas stets die Felder die allgemeineren Schemas enthalten. Man beachte dabei, dass nicht alle Felder ausgefüllt sein müssen, dass aber die Menge an Pflichtfeldern größer wird, wenn ein Datensatz zur Publikation freigegeben wird. Beispiel: Wenn ein Forscher einen frischen Datensatz hochlädt, muss er nicht schon die Nachnutzungsrechte dafür definieren. Aber sobald diese Daten zugreifbar geschaltet werden, wird dies zum Pflichtfeld.

In einem laufenden Prozess sammelt die Zentralbibliothek diese Metadaten-Schemas. Da unter Umständen für jede einzelne Prozessierungs- und Messmethode jeweils ein Schema definiert werden muss, sind wir darauf vorbereitet, dass das hunderte oder gar tausende werden können. Dies geschieht in direkter Zusammenarbeit mit den daran interessierten Instituten, Arbeitsgruppen und Einzelforschern auf dem Campus.

Die zweite große Herausforderung in diesem Kontext ist die Software. Die Zentralbibliothek hat sich für die Software Dataverse entschieden, allerdings ist jetzt schon klar, dass diese nicht alle Anforderungen erfüllt. Eigene Entwicklungsarbeit ist unumgänglich.


Servicemenü

Homepage