Daten: Vom Sammeln, Nutzen bis zum Veröffentlichen

Für verschiedene Projekte entwickelt das LRZ Werkzeuge für das Management von Forschungsdaten: Eine Aufgabe, von der die Wissenschaft profitiert und die angesichts von Plagiaten und fehlerhaften Fachartikeln an Bedeutung gewinnt.

Mess- und Laborwerte, die Beschreibung von Experimenten, Diagramme und Tabellen, Paper, Präsentationen: Wie in allen Forschungsprojekten entstehen bei Transregio PlantMicrobe (TRR356), für das die Ludwig-Maximilians-Universität (LMU), die Technische Universität München (TUM) sowie die Eberhard Karls Universität Tübingen (EKUT) seit 2023 zusammenarbeiten, laufend Daten zum Zusammenleben von Mikroben und Pflanzen: solche, die Biologinnen und Genetiker selbst erstellen, die sie von anderen sammeln und nutzen sowie diejenigen, die sie veröffentlichen. „Es ist wichtig, dass Forschende von Anfang an ihre Daten sauber strukturieren und verwalten“, empfehlen Alexander Wellmann und Dr. Matthias Krinninger vom Team Forschungsdatenmanagement des Leibniz-Rechenzentrums (LRZ). „Dazu gehört, Dateien und Informationen kurz zu beschreiben, bei Bedarf zu kommentieren und sie übersichtlich zu organisieren, etwa durch verständliche Namen oder in Ordnern und Unterordnern.“

Gemeinsam Daten verwalten

Forschungsdatenmanagement ist eine noch vergleichsweise junge Aufgabe in der Wissenschaft. Sie wird selten gelehrt – wenn, dann eher von Bibliotheken – fördert aber insbesondere beim computergestützten Arbeiten Effizienz und die Nachvollziehbarkeit der Resultate. Mit Beiträgen zu verschiedenen Projekten und zur Nationalen Forschungsdateninfrastruktur (NFDI) evaluiert das LRZ seit etwa zehn Jahren Techniken und Methoden fürs Datenmanagement und entwickelt darüber hinaus digitale Tools und Plattformen dafür.

Für die Biologie-Community TRR356 und deren rund 20 Arbeitsgruppen entstand in Zusammenarbeit mit dem Zentrum für Datenverarbeitung in Tübingen VERDA, eine Computing- und Kommunikationsplattform: Diese setzt auf GitLab, einen Open-Source-Dienst, mit dem Entwicklerinnen sonst die Planung über die Versionskontrolle bis hin zum Testen und Bereitstellen von Software organisieren. Mit nützlichen Werkzeugen fürs Projektmanagement ausgestattet eignet sich GitLab aber auch für Forschungsgruppen: Sie können hier Text- und Bilddateien gemeinsam bearbeiten, Aufgaben organisieren, Abläufe oder Datensätze dokumentieren. Die Plattform kann bei Bedarf für weitere Projektpartner geöffnet werden und weitere Werkzeuge fürs Forschen und Dokumentieren aufnehmen.

Ordnung muss sein: Ob auf Papier oder digital – Forschungsdaten sollten bewusst geordnet und strukturiert archiviert werden, damit Ergebnisse und Studien nachvollziehbar bleiben.

So hat das EKUT-Team für den schnellen Austausch den frei verfügbaren Matrix-Chat integriert. Inzwischen finden sich auf VERDA weitere webbasierte Dienste wie das elektronische Laborbuch sowie virtuelle Speicher- und Rechenkapazitäten. Nach dem Annotated Research Context- oder ARC-Schema, das in der Biologie weit verbreitet ist, lassen sich wiederum Forschungsergebnisse strukturieren. ARCpub unterstützt danach die Online-Veröffentlichung von Preprints oder Datensätzen mit Berechnungen in den Repositorien oder elektronischen Speichern der beteiligten Universitäten: „Dieses Tool von uns generiert automatisiert standardisierte Metadaten, also Angaben, die einen Datensatz beschreiben und für eine Veröffentlichung benötigt werden“, erklärt Wellmann. Zusätzlich wird noch ein Digital Object Identifier oder DOI notwendig, den meist die Repositorien generieren. Während der DOI ein eindeutiges und dauerhaftes Merkmal darstellt, nennen Metadaten generelle Angaben zum Inhalt, etwa die Namen der Autorinnen, die Entstehungszeit der Forschungsergebnisse, die vorliegenden Dateiformate, die eingesetzten Technologien und mehr: „Damit“, so Wellmann, „werden Datensätze und Fachartikel online recherchierbar und zugänglich, außerdem können Inhalte reproduziert oder Mess-, Simulations- und andere Daten in anderen Projekten eingesetzt werden.“

Diese FAIR-Prinzipien zur Datenhaltung erhöhen Effizienz und Transparenz in der Wissenschaft. Anhand von strukturierten Daten lassen sich Doppelarbeiten oder die Wiederholung von teuren Experimenten reduzieren, außerdem können damit wissenschaftliche Beiträge nachvollzogen und überprüft werden. Diese Aufgabe wird wichtiger, denn durch den Veröffentlichungsdruck für wissenschaftliche Laufbahnen und durch den Einsatz von Künstlicher Intelligenz (KI) nimmt gerade die Zahl der wissenschaftlichen Veröffentlichungen weltweit sprunghaft zu. Darunter findet sich allerdings auch viel Schrott – Plagiate oder fiktive Studien, die so genannte Paper Mills erstellen und bei Fachverlagen einreichen. Nicht umsonst fordern die Deutsche Forschungsgemeinschaft sowie europäische Fördergeber immer öfter ein professionelles Management für Forschungsdaten in ihren Projekten.

Brücken zwischen Standards

„Weil das Forschungsdaten-Management noch jung ist, gibt es noch keine einheitlichen Regeln, sondern viele fachspezifische Forderungen und Ansprüche“, umreißt Krinninger ein grundsätzliches Problem. Daraus folgen unterschiedlichste Standards: So unterscheidet sich das ARC-Format aus der Biologie von anderen Schemata für Metadaten, etwa von DataCite, einem internationalen Konsortium, das am einfachen Zugang zu wissenschaftlichen Daten arbeitet. Darüber hinaus basieren die Repositorien von Bibliotheken und Forschungsinstituten auf verschiedenen Speichertechnologien sowie auf Open-Source-Programmen, auch das nimmt Einfluss auf Dateiformate und damit auf Standards.

Das lässt sich am Beispiel des Gauss Centre for Supercomputing nachvollziehen: In diesem Verbund organisieren sich die drei High-Performance-Computing-Zentren Deutschlands, darunter auch das LRZ. Sie arbeiten im Projekt InHPC-DE daran, unterschiedliche Infrastrukturen und HPC-Systeme sowie ihren Support und damit auch die Angebote fürs Management von Forschungsdaten zu harmonisieren. Wissenschaft und Unternehmen sollen einfacher zwischen den Services und Ressourcen der Zentren wählen und wechseln können. Auch die Online-Veröffentlichung von Simulationsdaten oder Berechnungen aus den verschiedenen Datenspeichern soll komfortabler werden. Wenn Forschende damit einverstanden sind, sollen sie ihre Ergebnisse Anderen für eine weitere Verarbeitung zugänglich machen können.

„Betreiber von Rechenzentren und Speicherkapazitäten arbeiten in ihren Datenspeichern jeweils mit eigenen Formaten für Metadaten“, beobachten Krinninger und Wellmann. „Also muss man Metadaten umwandeln – am besten automatisiert.“ Aus dem Open-Source-Tool HOMER hat das LRZ-Team HOMER Fork entwickelt. Dieses Programm durchsucht systematisch Datensätze und extrahiert zum Beispiel aus LOG-Dateien, die bei HPC-Berechnungen entstehen, Angaben zur Erstellung von Metadaten. Außerdem unterstützt der HOMER Converter verschiedene Metadaten-Formate und wandelt diese je nach Vorgabe des Repositoriums entsprechend um. Das funktioniert auch mit Metadaten, die händisch nach dem DataCite-Schema eingegeben wurden.

Datenmanagement: So kanns gelingen

Forschungsprojekte sollten mit gemeinsamen Regeln starten, wie Daten gesammelt, einheitlich geordnet, gespeichert und beschrieben werden. Ein Journal, in dem alle wie in einem Laborjournal neue Informationen, Dateien und Ergebnisse eintragen und kurz beschreiben, erspart vor Veröffentlichungen viel Sucharbeit.
Vorhandene Daten regelmäßig sichten, ergänzen, kommentieren und ordnen: So entstehen nebenbei auch schon die ersten Metadaten.
Eine gute und logische Struktur zur Benennung von Dateien und Datensätzen überlegen.
Je mehr Informationen zu Inhalten und Datensätzen vorhanden sind, umso besser wird die Recherchierbarkeit und Wiederverwendbarkeit.
Beim Ordnen und Organisieren an Andere denken: Können Externe die Logiken und Strukturen der Ablage verstehen? Ist sie übersichtlich genug?

Daten zugänglich machen

Aus Metadaten nach dem ARC-Format kann der HOMER-Converter solche nach DataCite-Schema fabrizieren. TRR356 könnte damit seine Forschungsdaten auch ins FAIR Data Portal des LRZ übertragen und dort veröffentlichen. Seit zwei Jahren existiert das Portal, das vor allem die HPC-Gemeinschaft anspricht und zum LRZ-Dienst werden kann, sollte die Verstetigung durch Finanzierung gesichert werden. „Das Portal ist bereits verfügbar und kann von aller Welt genutzt werden“, meint Wellmann. Das Team arbeitet daran, das Portal unter den Anwenderinnen des LRZ sowie auf Konferenzen wie der EGU und Vorträgen bekannter zu machen. Denn damit können Forschende große, weitgehend immobile Datensätze zur weiteren Nutzung freigeben. Die bleiben dann zwar in den Datenspeichern des LRZ archiviert, können aber über Fernzugriff an anderen Rechenzentren be- und verarbeitet werden.

Die Arbeit mit Daten, insbesondere die FAIR-Prinzipien oder der Anspruch, dass Daten wiederverwertet werden sollten, prägen inzwischen das LRZ-Team: Beim Aufbau von Plattformen oder bei der Entwicklung von Tools kommen daher bevorzugt Open-Source-Werkzeuge wie etwa Ansible zum Einsatz. Mit diesem Werkzeugkasten lässt sich beispielsweise die Gestaltung von VERDA leicht nachvollziehen: „Die Plattform besteht modular aus Open-Source-Tools und enthält Strategien oder Funktionen, die wir noch für andere Projekte einsetzen können“, so Krinninger. Und so ist VERDA auch Blaupause für weitere Services und technische Anforderungen: „Gut ist Datenmanagement ja dann“, sagt Kollege Wellmann, „wenn es für Externe nachvollziehbar wird und Andere von Erfahrungen und Wissen profitieren können.“ (vs | LRZ)

Die Regeln für FAIR Data (findable, accessible, interoperable, reusable)
Vorschläge, Regeln und Beispiele fürs Forschungsdatenmanagement
Grundlagen fürs FDM
Bildungsangebote und Grundsätzliches
Hochschulübergreifender IT Service Forschungsdatenmanagement
Fördertöpfe für Forschungsdatenmanagement
Repositorien fürs Veröffentlichen
Services zur Planung und Durchführung von Forschungsprojekten
Schulungskalender der Bayerischen Staatsbibliothek
Schulungskalender der LMU-Bibliothek
Workshops der TUM
Veranstaltungen zum Management von Forschungsdaten