

Naturbeobachtungen, Fotos, Messwerte aus Experimenten bis hin zu Genomsequenzen: Der Forschungsverbund Transregio 365 „Genetic Diversity shaping biotic interactions of plants“ oder kurz TRR356 PlantMicrobe erforscht die wechselseitigen Beziehungen zwischen Mikroben und Pflanzen. Damit die dabei generierten Informationen nachvollziehbar und vor allem zugänglich oder für weitere Projekte zur Verfügung stehen, gehört das Management von Forschungsdaten zu den Arbeitspaketen. Das Leibniz-Rechenzentrum (LRZ) baut dafür mit dem Rechenzentrum der Universität Tübingen das Virtual Environment for Research Data and Analysis (VERDA) auf, eine Plattform mit Tools zur Datenanalyse, -Verarbeitung sowie zur Verwaltung und Dokumentation von Daten. Die Biologin Dr. Dagmar Hann von der Ludwig-Maximilians-Universität München (LMU) leitet mit Dr. Gudrun Kadereit, Professorin am LMU-Lehrstuhl Biologie, beim TRR 365 Aufgaben zur Öffentlichkeitsarbeit. Sie produziert unter anderem den Podcast „Pflanzen und ihr Mikrokosmos“ und hat für Folge 4 mit Dr. Stephan Hachinger und Dr. Alex Wellmann vom LRZ über Datenmanagement und notwendige IT-Systeme unterhalten. Das folgende Interview wurde daraus zusammengestellt.
Bevor wir in eure Arbeit einsteigen, persönliche Fragen: Du, Stephan, bist promovierter Astrophysiker, arbeitest jetzt aber an einem Biologie-Projekt. Wie ist es dazu gekommen?
Dr. Stephan Hachinger: Für die Astrophysik habe ich bis 2014 sehr viel für Simulationen gerechnet. Dadurch bin ich ins High-Performance Computing eingestiegen und darüber dann als Mitarbeiter des LRZ ins Forschungsdaten-Management. In diesem Bereich sind die Wissenschaftsdisziplinen vergleichbar, es sind meistens Naturwissenschaften, deren Daten und Erkenntnisse beschrieben gehören, anderen zugänglich gemacht und geteilt werden sollten. Daran arbeiten wir auch im TRR365-Projekt. Dass ich Wissenschaftler war und bin, hilft mir, Forschende oder Biologinnen zu verstehen, auch wenn ich von ihren Fachthemen weniger weiß.
Was ist dein Hintergrund, Alexander?
Dr. Alexander Wellmann: Ich habe in Chemie promoviert, während der Doktorarbeit viel programmiert und mich sehr stark für IT interessiert. Ich wollte in diesen Bereich einsteigen. Weil das LRZ Forschung mit Programmieren und IT verband, bin ich dort als Mitarbeiter gelandet. Zwar ist Chemie näher an der Biologie dran, aber Datenmanagement-Konzepte kann ich aus meinen Laborerfahrungen auch in andere Disziplinen transferieren.
In der vierten Folge ihres Podcasts diskutierte die promovierte Biologin Dagmar Hann mit Stephan Hachinger und Alexander Wellmann vom LRZ die Vorteile des Forschungsdaten-Managements nach den internationalen FAIR-Regeln, außerdem wie technischen Plattformen und Tools diese Aufgaben unterstützen.
Ist KI eine Chance oder ein Risiko?
Wellmann: Ich bleibe offen, sehe sie eher als Chance. Allerdings trägt der aktuelle Hype um KI dazu bei, dass viele Modelle oder Angebote überbewertet werden. Oft scheint mehr möglich als es tatsächlich ist. KI ist ein sehr nützliches Tool, wird sicher nicht mehr verschwinden aus unserer Welt, wir sollten daher besser überlegen, wie wir KI in unsere Arbeit einbinden.
Im Forschungsverbund seid ihr für VERDA zuständig.
Hachinger: VERDA ist die IT-Plattform für TRR365, genauer: Wir bieten eine web-basierte Plattform für alle Beteiligten, auf der sie Forschungsdaten ablegen, teilen und zur Publikation vorbereiten können. Die Plattform integriert außerdem soziale Services wie das Chatsystem Matrix mit dem Client Element. Wichtig ist, dass wir über VERDA Zugriff auf Computing-Infrastruktur bieten, mit der man die dort gespeicherten Daten auswerten und berechnen kann. Die Technische Universität München begleitet das Projekt mit einem Data Steward, der die Wissenschaftlerinnen anleitet, wie sie ihre Daten FAIR speichern und veröffentlichen. FAIR bedeutet: Findable, Accessible, Interoperable und Reusable, praktisch bedeutet das, dass Datensätze mit standardisierten Informationen versehen werden, durch die sie zugänglich und wiederverwendbar werden.
FAIR klingt erstmal toll. Denke ich an meinen Alltag, sehe ich mehrere Herausforderungen: Wenn ich im Labor Daten analysiere, habe ich oft mein Notebook nicht dabei. Dann muss ich später meine Daten FAIR speichern. Gibt es dafür Tools, die das erleichtern?
Hachinger: Noch ist die FAIRe Datenspeicherung vor allem ein manueller Prozess, deswegen begleiten wir und die Kolleginnen von der TUM das mit Support. Es bedeutet ja nicht nur zusätzliche Arbeit, niemand will doch Forschungsdaten in die Öffentlichkeit rausblasen, bevor sie nicht ausgewertet und in einem Paper veröffentlicht wurden. FAIR bedeutet erstmal Vorbereitung. Ich beschreibe Daten, weise ihnen eindeutige Identifier zu – meist eine Nummer. So kann ich Daten veröffentlichen, wenn ich das möchte.
Welche Daten fallen bei TRR365 an?
Wellmann: Grundsätzlich sind das Daten, die Forschende generieren, außerdem Metadaten, die diese Informationen beschreiben. Ein konkretes Beispiel aus dem TRR365-Projekt: Hier fallen Genomsequenzierungen und Laborwerte darunter, auch Laborbücher, die erste Metadaten enthalten, etwa die Beschreibung von Experimenten und deren Bedingungen. Auf lange Sicht gehören zu den Metadaten auch Informationen zur Veröffentlichung, also Diagramme, Tabellen und anderes mehr, die aus Mess- und anderen Werten berechnet werden.
Welche besonderen Anforderungen stellt der TRR365-Verbund an das Datenmanagement?
Hachinger: Vor allem riesige Datensätze, gerade die genetische Sequenzierung bringt enorm viele Daten. Und dann wollen die Forschenden von ihren favorisierten Computern auf VERDA und die Daten zugreifen. Die Biologie der Ludwig-Maximilians-Universität München verfügt zum Beispiel über ein eigenes Rechen-Cluster, mit dem das Konzept von VERDA vereinbar sein muss. Weitere solche Beispiele gibt es auch für Sequencing-Aufgaben und für KI-Modelle und -Programme. Verwaltungstechnisch soll VERDA außerdem die Standard-Anforderungen zum Erstellen von Metadaten erfüllen. Das alles ist ziemlich komplex.
Kurzfristig werde ich wohl ein bisschen Zeit investieren müssen, um mit VERDA umgehen zu können. Aber welche Tools bietet VERDA und wie wird die Plattform meine Arbeit langfristig erleichtern?
Wellmann: Auf VERDA findet sich zum Beispiel der Matrix Element-Chat, ein projektinternes Kommunikationstool für den sicheren Austausch. Chats oder Dateien landen nicht auf Whats App-Servern. Als Werkzeug fürs Datenmanagement ist die GitLab-Plattform gedacht. Wie bei GitHub kann man hier Code speichern, mit anderen teilen, gemeinschaftlich bearbeiten und dabei versionieren. Aber eben nicht nur Code – Labor- und andere biologische Informationen können hochgeladen und organisiert werden. Dabei wird jede Version gesichert, man kann nichts überschreiben, das ist wichtig, um zu dokumentieren, wer wann wie einen Datensatz verändert hat.
GitHub habe ich schon verwendet. Mir gefiel, dass man für Projekte eine Art Baum generiert, und für Nebenprojekte oder weitere Ideen Äste und Zweige aufbaut.
Wellmann: Wie in der IT üblich kann man mit GitHub oder GitLab mit Ästen oder Branches arbeiten, diese auch aus dem Projektbaum herausnehmen, um damit einen neuen Stamm zu bilden. Das ist sehr übersichtlich und hilfreich. Oder man bleibt auf einem Stamm und verfolgt hier die Entwicklung des Codes oder der Daten zurück, pickt vielleicht einzelne Punkte zum Bearbeiten heraus.
An TRR365 arbeiten 20 Gruppen: Hat jede Teamleitung ein GitLab oder jede Forschende einen Zugang?
Hachinger: GitLab ist eine Installation von Tübingen, die wir auf eine föderierte Nutzung erweiterten und damit für alle Standorte verfügbar machten. Hier vergeben Leitende Zugriffsrechte und laden Mitglieder ein. Diese bekommen alle einen personalisierten Zugang, damit transparent wird, woran sie jeweils arbeiten. Das dient weniger zur Kontrolle, sondern macht Daten und deren Entstehung nachvollziehbar. Alle User können eigene Projekte eröffnen und Branches erstellen, um Codes und Daten zu verwalten.
Name: TRR365 “Genetic diversity shaping biotic interactions of plants” PlantMicrobe
Laufzeit: 2023 – 2026
Thema: Biologische Diversität, die Interaktion zwischen Pflanzen und Mikroben
Beteiligte: Eberhard Karls-Universität Tübingen, Ludwig-Maximilians-Universität, Technische Universität München
20 Arbeitsgruppen, ca. 50 Forschende
Förderung: Deutsche Forschungsgemeinschaft
Finanzierung: ca. 10 Mio. Euro
Wo seht ihr die größte Diskrepanz zwischen technischer Machbarkeit und den Bedürfnissen von Forschenden?
Hachinger: Wissenschaftlerinnen stellen sich ein Datenzentrum oft so vor, dass es eine übersichtliche Oberfläche hat und viele Funktionen oder Tools, mit denen sie ihre Daten besser analysieren. Sie wollen Super-Diagramme herstellen und komplexe Auswertungsaufgaben lösen. Das ist verständlich. Aber wissenschaftliche Probleme unterscheiden sich, Tools zur Verfügung zu stellen, die vielen Forschenden helfen und mit denen spezielle Fragen besser lösbar werden, ist technisch nicht einfach. Ein Ansatz könnten virtuelle Jupiter-Notebooks sein, mit denen User übers Web Werkzeuge oder Auswertungsworkflows vereinfacht programmieren können. Darüber denken wir nach, das bleibt eine Herausforderung, die vielleicht in den nächsten Finanzierungsperioden von TRR365 Aufgabe werden. Zurzeit müssen wir auf Manpower und Möglichkeiten achten und eine Basislösung aufbauen, damit alle die FAIR-Anforderungen erfüllen können. Das ist ja ein Ziel der Deutschen Forschungsgemeinschaft als Fördergeberin.
Gab es bei der Entwicklung von VERDA Aha-Momente?
Wellmann: Weil ich an der technischen Implementierung von Services arbeite, war das die Vernetzung der Standorte Tübingen und München. Die war gar nicht so einfach zu bewerkstelligen, da habe ich viel gelernt.
Hachinger: Bemerkenswert finde ich, dass die Nationale Forschungsdaten-Infrastruktur, kurz NFDI, die in Deutschland aufgebaut wird, schon Auswirkungen auf das TRR365-Projekt hatte. Die NFDI besteht aus 30 Konsortien, die für diverse Fachbereiche Möglichkeiten und Methoden zum Datenmanagement entwickeln. Tübingen arbeitet beim Konsortium DataPlant mit, mich hat erstaunt, wie konkret der Einsatz von GitLab oder Verzeichnisstrukturen wie der Annoted Research Context oder ARC bereits umgesetzt werden können. Das sind sehr gute Standards, darauf versuchen wir mit VERDA aufzusetzen.
Gibt es eine besondere Erfolgsgeschichte aus der Arbeit an VERDA?
Wellmann: Viele kleine Erfolge gibt es – für zwei, drei Workshops haben wir zum Beispiel die Cloud-Infrastruktur des LRZ zur Verfügung gestellt, damit Wissenschaftlerinnen in den Kursen rechenintensive Tools, die viel Rechenpower brauchen, ausprobieren konnten. Auch die GitLab-Plattform zähle ich zu den Erfolgen, man sieht, dass hier Projekte hochgeladen werden, die Plattform also gut genutzt wird.
Wenn sich Studierende und Forschende im Bereich Datenmanagement qualifizieren wollen, welche Kenntnisse und Eigenschaften brauchen sie?
Wellmann: Sehr gut ist sicher Interesse für FAIR Data und Open Science, die Veröffentlichung von Daten, damit sie weiter benutzt werden können. Was definitiv hilfreich ist und Forschende schon erfüllen, sind Erfahrungen mit wissenschaftlicher Arbeit. Meiner Erfahrung nach hilfreich, aber nicht zwingend notwendig sind Kenntnisse in der IT, zumindest sollte das Interesse da sein, neue Techniken oder Skills zu erlernen.
Was hat euch an der Arbeit von VERDA gereizt, warum wolltet ihr Teil von TRR365 werden?
Hachinger: Das TRR365 war eine hervorragende Gelegenheit in der Praxis umzusetzen, was die NFDI-Konsortien planen. Es ist spannend, die Forderungen in einem mir eher fremden Fachbereich anzuwenden und zu versuchen, die Bedürfnisse von Wissenschaftlerinnen mit meinen Vorstellungen zum Forschungsdatenmanagements und denen der FAIR-Vorreiter zusammenzubringen.
Welche Rolle spielt VERDA für Open Science?
Hachinger: Open Science geht nicht ohne FAIR Data. Nicht alles, was FAIR ist, muss gleich offen sein, aber alles, was offen ist, muss irgendwie beschrieben sein, um zugänglich, interoperabel und wieder benutzbar zu werden. Datenmanagement ist ein Schritt, Daten zugänglich zu machen, und das ist auch der Kern von Open Science. Tools wie GitLab machen überdies nachvollziehbar, wie Forschungsergebnisse oder Codes entstanden. Das versuchen wir umzusetzen und mit Forschenden zu fördern.
Schön wär’s, wenn TRR365 über 2026 hinaus von der DFG finanziert wird. Die DFG ist eine Einrichtung der Gesellschaft: Warum sollte diese Interesse an Datenprojekten wie VERDA haben?
Wellmann: Die Frage hat zwei Ebenen. Einerseits hebt es die Qualität von Ergebnissen, wenn viele Wissenschaftlerinnen Zugriff auf die Daten erhalten. Je mehr Forschende sie sich anschauen und überprüfen können, umso besser wird die Qualität. Ähnliche Ergebnisse aus anderen Projekten oder von unterschiedlichen Herangehensweisen, stützen wiederum die Erkenntnis. Sind mehr hoch qualitative Daten offen zugänglich, nützt das auch der Gesellschaft. Zum einen finanziert sie Forschung und deren Ergebnisse können für soziale oder wirtschaftliche Zwecke genutzt werden. Und alle können selbst auf Daten zugreifen und sich ein eigenes Bild über Erkenntnis machen. Das ist sehr wertvoll.
Sollten Förderanträge zur Fortsetzung von TRR365 genehmigt werden – wo seht ihr VERDA in fünf oder zehn Jahren?
Hachinger: In den ersten vier Jahren werden wir es sicher schaffen, das System zu etablieren, Forschende überwinden Vorbehalte und lernen, wie Datensätze publiziert werden. Danach könnten wir noch Schippen drauflegen: Einerseits sollten Arbeitsabläufe einfacher und automatisiert werden, etwa die Veröffentlichung einer Arbeit in der Uni-Bibliothek. Praktischere Benutzeroberflächen zum Anzeigen oder zur Verarbeitung von Forschungsdaten oder Electronic Lab Notebooks mit VERDA zu verknüpfen, das können wir sicher noch vielseitiger werden.
Gibt es ein langfristiges Ziel für VERDA, das über den Forschungsverbund TRR365 hinausreicht?
Hachinger: Wir setzen bereits Regeln von DataPlant, der NFDI-Landschaft sowie von der Research Data Alliance technisch um, folglich haben wir die Hoffnung, dass VERDA in der Forschungslandschaft seinen festen Platz erhält und sich in eine Sammlung von Filesharing- und Publikationsplattformen eingruppiert. Vielleicht wird VERDA auch mit anderen Systemen verheiratet, die das unterstützen. Andererseits stellen wir unsere Installationsskripte offen zur Verfügung, damit kann jeder eine Kopie für ähnliche Zwecke aufbauen.
Zum Abschluss die Frage: Was habt ihr durch die Arbeit an VERDA für die Wissenschaft, Technologie und Zusammenarbeit gelernt?
Wellmann: Trotz Unterschiede in den Fachdisziplinen habe ich festgestellt, dass Forschende oft ähnliche Probleme im Alltag haben, die man technisch mit vergleichbaren Mitteln lösen kann. Eigene Erfahrungen aus der Chemie sind mir in diesem Projekt wieder begegnet.
Hachinger: Als wir noch in der Wissenschaft aktiv waren, waren die IT-Systeme noch nicht so weit fortgeschritten. Oft haben wir festgestellt, dass Angebote nicht benutzerfreundlich waren. So gesehen hoffen wir, es jetzt besser gemacht zu haben. Außerdem ist es interessant zu beobachten, dass jede Wissenschaft ihren eigenen Style hat. (Dr. Dagmar Hann, Biologin | LMU)