Tools and workflows for data & metadata management of complex experiments : building a foundation for reproducible & collaborative analysis in the neurosciences
Sprenger, Julia; Grün, Sonja Annemarie (Thesis advisor); Kampa, Björn Michael (Thesis advisor)
Jülich : Forschungszentrum Jülich GmbH, Zentralbibliothek, Verlag (2020)
Buch, Doktorarbeit
In: Schriften des Forschungszentrums Jülich. Reihe Schlüsseltechnologien 222
Seite(n)/Artikel-Nr.: 1 Online-Ressource (X, 168 Seiten) : Illustrationen, Diagramme
Dissertation, RWTH Aachen University, 2020
Kurzfassung
Das wissenschaftliche Wissen der Menschheit basiert auf der Überprüfung von Hypothesen durch Experimente. Da der Aufbau und die Durchführung eines Experiments immer komplexer werden, werden immer mehr Wissenschaftler an einem einzigen Projekt beteiligt. Um die erzeugten Daten für alle Wissenschaftler und bestenfalls für die gesamte wissenschaftliche Gemeinschaft leicht zugänglich zu machen, ist es unerlässlich, die Umstände der Datengenerierung umfassend zu dokumentieren, da diese wesentliche Informationen für die spätere Analyse und Interpretation enthalten. In dieser Arbeit stelle ich zwei komplexe neurowissenschaftliche Projekte und die Strategien, Werkzeuge und Konzepte vor, mit denen die gesammelten Daten umfassend verfolgt, verarbeitet, organisiert und für die gemeinsame Analyse vorbereitet wurden. Zunächst beschreibe ich das ältere der beiden Experimente und erkläre detailliert die Erzeugung von Daten und Metadaten sowie die Pipeline zur Aggregation von Metadaten. Um die komplexe Metainformation dieses Projekts zu erfassen, wurde ein hierarchischer Ansatz auf Basis der Open-Source-Software odML für die Metadatenorganisation implementiert. Ich evaluiere die verwendeten Designkonzepte und Werkzeuge und leite daraus einen allgemeinen Anforderungskatalog für die wissenschaftliche Zusammenarbeit in komplexen Projekten ab. Außerdem identifiziere ich Probleme und Anforderungen, die durch diese Pipeline noch nicht gelöst wurden. Insbesondere bestand die Schwierigkeit darin, i) manuelle Metadaten einzugeben und die Metadatenerfassung zu strukturieren, ii) Metadaten mit den eigentlichen Daten zu kombinieren und iii) die Pipeline modular generisch und transparent aufzubauen. Anhand dieser Analyse beschreibe ich Konzept- und Tool-Implementierungen, um diese identifizierten Probleme anzugehen. Ich habe ein ergänzendes Werkzeug (odMLtables)entwickelt, um i) die strukturierte Erfassung von Metadaten zu erleichtern und ii) diese einfach in das hierarchische, standardisierte Metadatenformat odML zu konvertieren. odMLtables bietet eine Schnittstelle zwischen den leicht lesbaren tabellarischen Metadatenrepräsentation in den in Laborumgebungen gebräuchlichen Formaten (csv/xls) und dem hierarchisch organisierten odML-Format auf Basis von xml, das für eine um-fassende Sammlung komplexer Metadatensätze in leicht maschinenlesbarer Form konzipiert ist. Ergänzend zur koordinierten Erfassung von Metadaten habe ich die Neo Toolbox für die standardisierte Darstellung elektrophysiologischer Daten mitgestaltet. Diese Toolbox ist eine Schlüsselkomponente für die elektrophysiologische Datenanalyse, da sie verschiedene proprietäre und nicht-proprietäre Dateiformate integriert und als Brücke zwischen verschiedenen Dateiformaten dient. Ich betone neue Funktionen, die den Prozess des Daten- und Metadatenhandlings im Workflow der Datenerfassung vereinfachen. Ich führe das Konzept des Workflow-Managements in den Bereich der wissenschaftlichen Datenverarbeitung ein, basierend auf dem gängigen Python-basierten snakemake Paket. Für das zweite, neuere elektrophysiologische Experiment habe ich den Workflow zur Erfassung und Verpackung von Metadaten und Daten in einer umfassenden Form konzipiert und implementiert. Hier habe ich das generische neurowissenschaftliche Informationsaustauschformat (Nix) für die benutzerfreundliche Verpackung von Datensätzen mit Daten und Metadaten in kombinierter Form verwendet. Schließlich evaluiere ich den verbesserten Workflow anhand der Anforderungen an die wissenschaftliche Zusammenarbeit in komplexen Projekten. Ich erstelle allgemeine Richtlinien für die Durchführung solcher Experimente und Workflows in einem wissenschaftlichen Umfeld. Abschließend stelle ich die nächsten Entwicklungsschritte für den vorgestellten Workflow und mögliche Wege vor, diesen Prototyp als Serienprototypeiner breiteren wissenschaftlichen Gemeinschaft zur Verfügung zu stellen.
Einrichtungen
- Fachgruppe Biologie [160000]
- Lehr- und Forschungsgebiet Theoretische Systemneurobiologie (FZ Jülich) [163110]
Identifikationsnummern
- ISBN: 978-3-95806-478-2
- DOI: 10.18154/RWTH-2020-07304
- RWTH PUBLICATIONS: RWTH-2020-07304