Knowledge discovery in biological big data : Tailor-made data analysis algorithms integrating expert knowledge
Hausen, Jonas
Aachen (2020)
Buch
Kurzfassung
In den letzten Jahrzehnten kam es in den Biowissenschaften zu einem enormen Datenwachstum, ermöglicht durch neue Technologien wie die Hochdurchsatz-Sequenzierung (next-generation sequencing) und verbesserte Möglichkeiten des Datentransfers und der Datenspeicherung. Diese als "Big Data" bezeichneten Datenmengen haben oft gleiche Charakteristika wie große Heterogenität, hohe Anzahl an Variablen oder großes Datenrauschen. Klassische Auswerteverfahren sind meist nicht in der Lage diese Charakteristika adäquat zu berücksichtigen und das volle Potential der Daten auszuschöpfen. Verfahren aus dem Bereich des Data Mining sind eine vielversprechende Möglichkeit zur Auswertung dieser Daten. Um jedoch wichtige Erkenntnisse von irrelevanten Mustern in den Daten abzugrenzen, ist häufig das Wissen eines Experten aus dem jeweiligen Fachgebiet nötig. Ziel der Dissertation war deshalb die Einbindung von fachspezifischem Expertenwissen in die Auswertung von großen biologischen Datensätzen, um biologisch relevante Ergebnisse zu gewinnen. Dabei wurde ein Analyseprozess entwickelt und auf verschiedene Big Data Datensätze aus dem Bereich der Biologie und Umweltforschung angewandt: a) Genexpressionsdaten vom Zebrabärbling nach Exposition gegenüber Umweltschadstoffen b) Taxonomische Daten und Umweltparameter aus einer globalen bodenzoologischen Datenbank c) Pilzsequenzdaten aus Bodenproben verschieden bewirtschafteter Wälder. Um dem Umfang und der Komplexität der Daten gerecht zu werden, wurden alle Datensätze mit einem Data Mining Workflow ausgewertet. Darüber hinaus wurde an verschiedenen Stellen innerhalb des Workflows Expertenwissen integriert, um irrelevante Ergebnisse, wie Datenartefakte zu vermeiden und biologisch relevante Erkenntnisse abzuleiten. Mithilfe des Workflows gelang es das Hintergrundrauschen in den Genexpressionsdaten so weit zu reduziert, dass die Detektion von zufällig signifikanten Genen deutlich unwahrscheinlicher wurde. Im zweiten Anwendungskapitel wurde Expertenwissen genutzt, um nur biologisch wichtige Bodenparametern in die Analyse zu integrieren und so Habitatspräferenzen von bestimmten Bodenorganismen zu bestimmen. Schließlich wurde der Workflow verwendet, um Muster in den Lebensgemeinschaften von Pilzen zu finden, diese mit Expertenwissen über das Pilzvorkommen an den gleichen Standorten abzugleichen und bezüglich ihrer Nahrungspräfenzen zu gruppieren. Durch die schematische Darstellungsweise des Workflows konnte die komplexe Analyse in sinnvolle Arbeitsschritte bzw. Pakete aufgeteilt werden und daraufhin die wichtigsten Schritte für die Kooperation zwischen Fachexperte und Datenwissenschaftler identifiziert werden. Eine besondere Bedeutung kam dabei der Verwendung von Visualisierungen zu, da diese eine wertvolle Basis zur Diskussion und Validierung der Ergebnisse boten. Durch die Interaktion zwischen den beiden Expertengruppen kam es in dem Analyseprozess zu einer stetigen des Workflows und der Ergebnisse. Die Auswertung von großen biologischen Datenmengen war nur dann erfolgreich, wenn das Wissen über Datenauswertung mit dem entsprechenden wissenschaftlichen biologischen Hintergrund kombiniert wurde.
Einrichtungen
- Fachgruppe Biologie [160000]
- Lehrstuhl für Umweltbiologie und -chemodynamik [162710]
Identifikationsnummern
- DOI: 10.18154/RWTH-2020-04260
- RWTH PUBLICATIONS: RWTH-2020-04260
Downloads
Verwandte Publikationen
- [RWTH-2015-04109] Fold-change threshold screening : a robust algorithm to unmask hidden gene expression patterns in noisy aggregated transcriptome data
- [RWTH-2017-06296] Fishing for contaminants: identification of three mechanism specific transcriptome signatures using Danio rerio embryos
- [RWTH-2017-09978] Edaphostat: Interactive ecological analysis of soil organism occurrences and preferences from the Edaphobase data warehouse