DataLad

Was ist DataLad?
DataLad ist ein auf Python basierendes verteiltes Datenverwaltungssystem, das Daten mittels Versionskontrolle trackt, Strukturen schafft, Reproduzierbarkeit gewährleistet, Kollaboration fördert und sich in eine weit verbreitete Dateninfrastruktur integrieren lässt. Es wird von einer globalen und interdisziplinären Gemeinschaft von Wissenschaftler:innen als freies und quelloffenes Projekt entwickelt und gepflegt. Es ermöglicht Versionskontrolle beliebig großer Dateien in Datensätzen, ohne dass benutzerdefinierte Datenstrukturen, eine zentrale Infrastruktur oder Dienste von Drittanbietern erforderlich sind
DataLads Ziel ist es, Datenverwaltung und -austausch zu vereinfachen. Zu diesem Zweck baut es auf Git und Git-annex auf, um ein dezentrales System für den Datenaustausch bereitzustellen. Dazu gehört die automatische Erfassung von Daten aus Online-Portalen und deren Bereitstellung in leicht nutzbarer Form als Git(-annex)-Repositorys – oder DataLad datasets. Die eigentliche Datenspeicherung und das Berechtigungsmanagement verbleiben jedoch bei den ursprünglichen Datenanbietern.
DataLad ist nicht nur ein einzelnes Softwarepaket. Zahlreiche Erweiterungspakete können das Basispaket mit zusätzlichen Funktionen ausstatten oder sogar die Funktionsweise des Basispakets anpassen und optimieren. Die Software wird nicht nur von einzelnen Forschern verwendet, sondern ist auch ein grundlegendes Element in verschiedenen nationalen und internationalen Konsortien als Front- oder Back-End.
Das Hauptziel des DataLad-Projekts besteht darin, den kollaborativen Prozess der Wissensgewinnung aus Daten gemäß den FAIR-Leitprinzipien zu unterstützen – Findability (Auffindbarkeit), Accessibility (Zugänglichkeit), Interoperability (Interoperabilität) und Reusability (Wiederverwendbarkeit).
Weitere Informationen: DataLad