Bitte verwenden Sie diesen Link, wenn Sie dieses Dokument zitieren oder verlinken wollen: https://nbn-resolving.org/urn:nbn:de:gbv:9-002046-7

Integrating diverse biological sources and computational methods for the analysis of high-throughput expression data

  • High-throughput expression data have become the norm in molecular biology research. However, the analysis of expression data is statistically and computationally challenging and has not kept up with their generation. This has resulted in large amounts of unexplored data in public repositories. After pre-processing and quality control, the typical gene expression analysis workflow follows two main steps. First, the complexity of the data is reduced by removing the genes that are redundant or irrelevant for the biological question that motivated the experiment, using a feature selection method. Second, relevant genes are investigated to extract biological information that could aid in the interpretation of the results. Different methods, such as functional annotation, clustering, network analysis, and/or combinations thereof are useful for the latter purpose. Here, I investigated and presented solutions to three problems encountered in the expression data analysis workflow. First, I worked on reducing complexity of high-throughput expression data by selecting relevant genes in the context of the sample classification problem. The sample classification problem aims to assign unknown samples into one of the known classes, such as healthy and diseased. For this purpose, I developed the relative signal-to-noise ratio (rSNR), a novel feature selection method which was shown to perform significantly better than other methods with similar objectives. Second, to better understand complex phenotypes using high-throughput expression data, I developed a pipeline to identify the underlying biological units, as well as their interactions. These biological units were assumed to be represented by groups of genes working in synchronization to perform a given function or participate in common biological processes or pathways. Thus, to identify biological units, those genes that had been identified as relevant to the phenotype under consideration through feature selection methods were clustered based on both their functional annotations and expression profiles. Relationships between the associated biological functions, processes, and/or pathways were investigated by means of a co-expression network. The developed pipeline provides a new perspective to the analysis of high-throughput expression data by investigating interactions between biological units. Finally, I contributed to a project where a network describing pluripotency in mouse was used to infer the corresponding network in human. Biological networks are context-specific. Combining network information with high-throughput expression data can explain the control mechanisms underlying changes and maintenance of complex phenotypes. The human network was constructed on the basis of orthology between mouse and human genes and proteins. It was validated with available data in the literature. The methods and strategies proposed here were mainly trained and tested on microarray expression data. However, they can be easily adapted to next-generation sequencing and proteomics data.
  • Hochdurchsatz-Expressionsdaten haben die Norm in der molekularbiologischen Forschung geworden. Jedoch ist die Analyse der Expressionsdaten statistisch und rechnerisch anspruchsvoll und nicht mit ihrer Generation gehalten. Dies hat zu großen Mengen von Daten in unerforschten öffentliche Quellen geführt. Nach Vorbehandlung und Qualitätskontrolle, folgt die typische Genexpressionsanalyse Workflow zwei Hauptschritten. Erstens wird die Komplexität der Daten, indem die Gene, die redundant oder irrelevant für die biologische Frage, motiviert das Experiment unter Verwendung einer Merkmalsauswahlverfahren reduziert. Zweitens werden relevante Gene untersucht, um biologische Informationen, die in der Interpretation der Ergebnisse zu erleichtern könnte extrahieren. Verschiedene Methoden, wie Funktionsannotation, Clustering, Netzwerkanalyse und / oder Kombinationen davon sind nützlich für den letztgenannten Zweck. Hier untersuchte ich und präsentiert Lösungen für drei Probleme in der Expression Datenanalyse Workflow angetroffen. Zuerst arbeitete ich auf die Verringerung der Komplexität der Hochdurchsatz-Expressionsdaten durch die Auswahl relevanter Gene im Zusammenhang mit der Probe Klassifikationsproblem. Die Probe Klassifikationsproblem zielt darauf ab, unbekannten Proben in einer der bekannten Klassen zuordnen, wie gesund und erkrankten. Zu diesem Zweck entwickelte ich die relative Signal-zu-Rausch-Verhältnis (rSNR), eine neue Merkmalsauswahlverfahren, das gezeigt wurde, deutlich besser als andere Verfahren mit ähnlichen Zielen führen. Zweitens, um komplexe Phänotypen mit hohem Durchsatz Expressionsdaten besser zu verstehen, entwickelte ich eine Pipeline, die zugrundeliegenden biologischen Einheiten, sowie deren Wechselwirkungen zu identifizieren. Diese biologischen Einheiten angenommen Gruppen von Genen, die in Synchronisation mit einer gegebenen Funktion durchführen oder an gemeinsame biologische Prozesse oder Wege dargestellt werden. So, um biologische Einheiten zu identifizieren, wurden die Gene, die durch Merkmalsauswahl Methoden identifiziert worden war, als relevant für den Phänotyp unter Berücksichtigung basierend auf sowohl ihre funktionellen Annotationen und Expressionsprofile geclustert. Beziehungen zwischen den zugehörigen biologischen Funktionen, Prozesse und / oder Bahnen wurden mittels eines Co-Expression Netz untersucht. Das entwickelte Pipeline stellt eine neue Perspektive auf die Analyse von Hochdurchsatz-Expressionsdaten durch Untersuchung Wechselwirkungen zwischen biologischen Einheiten. Schließlich trug ich zu einem Projekt, bei dem ein Netzwerk beschreibt Pluripotenz in der Maus wurde verwendet, um das entsprechende Netzwerk in menschlichen schließen. Biologische Netzwerke sind kontextspezifisch . Die Kombination von Netzwerkinformationen mit Hochdurchsatz-Expressionsdaten können die Steuermechanismen zugrunde liegenden Veränderungen und Wartung komplexer Phänotypen erklären. Das menschliche Netz wurde auf der Basis der Orthologie zwischen Maus und menschlichen Genen und Proteinen aufgebaut. Es wurde mit den verfügbaren Daten in der Literatur validiert. Die Methoden und Strategien hier vorgeschlagen wurden vor allem geschult und Microarray-Expressionsdaten getestet. Allerdings können sie einfach an der nächsten Generation Sequenzierung und Proteomik-Daten angepasst werden.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author: Nitesh Kumar Singh
URN:urn:nbn:de:gbv:9-002046-7
Title Additional (German):Integration verschiedener biologischer Quellen und Rechenmethoden für die Analyse von Hochdurchsatz-Expressionsdaten
Advisor:Dr. Georg Füllen, Dr. Volkmar Liebscher
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2014/10/29
Granting Institution:Ernst-Moritz-Arndt-Universität, Mathematisch-Naturwissenschaftliche Fakultät (bis 31.05.2018)
Date of final exam:2014/10/29
Release Date:2014/10/29
GND Keyword:Expressionsdaten, Hochdurchsatz, Rechenmethoden, biologischer Quellen
Faculties:Mathematisch-Naturwissenschaftliche Fakultät / Institut für Mathematik und Informatik
DDC class:500 Naturwissenschaften und Mathematik / 510 Mathematik