Doctoral Thesis
Die dem Leben zugrundeliegenden Prozesse sind hochkomplex. Sie werden zu einem GroĂteil durch Proteine umgesetzt. Diese spielen eine tragende Rolle fĂŒr die morphologische Struktur und Vielfalt sowie SpezifitĂ€t der FĂ€higkeiten der verschiedenen Zelltypen. Jedoch wirken Proteine nicht isoliert fĂŒr sich allein sondern indem sie miteinander oder mit anderen MolekĂŒlen in der Zelle (DNA, Metabolite, Signalstoffe etc.) wechselwirken. GerĂ€t dieses Geflecht von aufeinander abgestimmten Wechselwirkungen aus dem Gleichgewicht, kann das eine Ursache fĂŒr Erkrankungen sein. Die Kenntnis ĂŒber fehlregulierte Interaktionen kann dabei helfen, die betreffende Krankheit besser zu verstehen und gegen sie zu intervenieren. Die vorliegende Dissertation beschĂ€ftigt sich mit der Identifizierung von solch differentiell regulierten Interaktionen. Im Rahmen der Arbeit wurde eine Methode mit dem Namen ExprEssence entwickelt, welche diejenigen Interaktionen in einem Protein-Protein-Interaktionsnetzwerk identifiziert, die sich zwischen zwei verglichenen ZustĂ€nden (z.B. krank versus gesund) am stĂ€rksten unterscheiden. Ziel ist es, das Netzwerk auf die wesentlichen Unterschiede zwischen den zwei untersuchten ZustĂ€nden zu reduzieren. Hierzu werden Genexpressions- oder Proteomdaten der beiden ZustĂ€nde in das bereits bestehende Netzwerk integriert. Aus diesen Daten wird die StĂ€rke/HĂ€ufigkeit des Auftretens der einzelnen Interaktionen des Netzwerks geschĂ€tzt. Die Interaktionen, deren InteraktionsstĂ€rken sich zwischen den betrachteten ZustĂ€nden am stĂ€rksten unterscheiden, werden beibehalten â die restlichen Interaktionen werden verworfen. Dies ergibt ein verkleinertes Subnetzwerk, das aus jenen Interaktionen besteht, die am stĂ€rksten differentiell reguliert sind. Diese Interaktionen und ihre Proteine sind Kandidaten fĂŒr eine ErklĂ€rung der biologischen Unterschiede der betrachteten ZustĂ€nde auf molekularem Niveau. Die Methode wurde auf verschiedene biologische Fragestellungen angewandt und mit anderen Ă€hnlichen Methoden verglichen. Bei der Untersuchung der Unterschiede zwischen Erfolg und Misserfolg einer chemotherapeutischen Brustkrebstherapie konnte beispielsweise gezeigt werden, dass das mit ExprEssence erstellte Subnetzwerk einen stĂ€rkeren Bezug zu den bereits bekannten Therapieerfolg-relevanten Mechanismen aufweist als die Methoden, mit denen ExprEssence verglichen wurde. Weiterhin wurde im Subnetzwerk eine möglicherweise fĂŒr den Therapieerfolg relevante Interaktion identifiziert, die in diesem Zusammenhang bisher nicht betrachtet wurde. Deren Bedeutung konnte in der experimentellen Nachverfolgung weiter untermauert werden. Einen weiteren Schwerpunkt der Arbeit bildete die Untersuchung des Interaktoms eines spezialisierten Zelltyps der Niere â des Podozyten. Dieser Zelltyp ist essentiell fĂŒr die Filtrationskompetenz der Niere. Ein Interaktionsnetzwerk mit spezifisch fĂŒr den Podozyten relevanten Interaktion gib es bisher nicht. Daher wurde ein Podozyten-spezifisches Protein-Protein-Interaktionsnetzwerk aus wissenschaftlichen Veröffentlichungen zusammengestellt und öffentlich verfĂŒgbar gemacht. Genexpressionsdaten vielfĂ€ltiger Art, beispielsweise von Podozyten in verschiedenen Entwicklungsstadien oder in Zellkultur, wurden in das Netzwerk integriert und mit ExprEssence analysiert. So konnte beispielsweise gezeigt werden, dass die Dedifferenzierung von in Kultur gehaltenen Podozyten nicht dem Umkehrweg der zuvor durchlaufenen Differenzierung entspricht. Neben ExprEssence wurde weitere Software entwickelt, die die Anwendbarkeit von ExprEssence erweitert â MovieMaker und ExprEsSector. Mit MovieMaker werden die ĂbergĂ€nge zwischen den betrachteten ZustĂ€nden nachvollziehbarer visualisiert. ExprEsSector bildet die Vereinigungs- und Schnittmengen-Netzwerke von ExprEssence-Subnetzwerken. So können beispielsweise verschiedenen Krankheiten gemeinsame VerĂ€nderungen vom Normalzustand identifiziert werden. Ist fĂŒr eine Krankheit bereits ein Therapieansatz vorhanden, der auf eine fehlregulierte Interaktion einwirkt, und ist diese Interaktion auch in der anderen Krankheit gleichartig differentiell reguliert, kann geprĂŒft werden, ob diese Therapie auf die zweite Krankheit ĂŒbertragen werden kann. Neben der Vorstellung und Diskussion der erzielten Ergebnisse, wird auch auf methodisch bedingte Nachteile eingegangen. Es werden Strategien aufgezeigt, wie die negativen EinflĂŒsse möglichst minimiert werden können oder wie sie bei der Bewertung der Ergebnisse zu berĂŒcksichtigen sind. In Anbetracht der immer schneller ansteigenden Menge biologischer Daten ist es eine wesentliche Herausforderung geworden, aus diesen die essentiellen Informationen zu extrahieren. Der integrative Ansatz der VerknĂŒpfung von Informationen verschiedener Quellen wurde mit ExprEssence und den Erweiterungen MovieMaker und ExprEsSector in einem Konzept zur Identifizierung zustandsrelevanter molekularer Mechanismen in intuitiv leicht erfassbarer Form umgesetzt.
Background: Computational tools for the investigation of transcriptional regulation, in particular of transcription factor binding sites (TFBS), in evolutionary context are developed. Existing sequence based tools prediction such binding sites do not consider their actual functionality, although it is known that besides the base sequence many other aspects are relevant for binding and for the effects of that binding. In particular in Eukaryotes a perfectly matching sequence motif is neither necessary nor sufficient for a functional transcription factor binding site. Published work in the field of transcriptional regulation frequently focus on the prediction of putative transcription factor binding sites based on sequence similarity to known binding sites. Furthermore, among the related software, only a small number implements visualization of the evolution of transcription factor binding sites or the integration of other regulation related data. The interface of many tools is made for computer scientists, although the actual interpretation of their outcome needs profound biological background knowledge. Results and Discussion: The tool presented in this thesis, "ReXSpecies" is a web application. Therefore, it is ready to use for the end user without installation providing a graphical user interface. Besides extensive automation of analyses of transcriptional regulation (the only necessary input are the genomic coordinates of a regulatory region), new techniques to visualize the evolution of transcription factor binding sites were developed. Furthermore, an interface to genome browsers was implemented to enable scientists to comprehensively analyze their regulatory regions with respect to other regulation relevant data. ReXSpecies contains a novel algorithm that searches for evolutionary conserved patterns of transcription factor binding sites, which could imply functionality. Such patterns were verified using some known transcription factor binding sites of genes involved in pluripotency. In the appendix, efficiency and correctness of the used algorithm are discussed. Furthermore, a novel algorithm to color phylogenetic trees intuitively is presented. In the thesis, new possibilities to render evolutionary conserved sets of transcription factor binding sites are developed. The thesis also discusses the evolutionary conservation of regulation and its context dependency. An important source of errors in the analysis of regulatory regions using comparative genetics is probably to find and to align homologous regulatory regions. Some alternatives to using sequence similarity alone are discussed. Outlook: Other possibilities to find (functional) homologous regulatory regions (besides whole-genome-alignments currently used) are BLAST searches, local alignments, homology databases and alignment-free approaches. Using one ore more of these alternatives could reduce the number of artifacts by reduction of the number of regions that are erroneously declared homologous. To achieve more robust predictions of transcription, the author suggests to use other regulation related data besides sequence data only. Therefore, the use and extension of existing tools, in particular of systems biology, is proposed.
Approaches to the Analysis of Proteomics and Transcriptomics Data based on Statistical Methodology
(2014)
Recent developments in genomics and molecular biology led to the generation of an enormous amount of complex data of different origin. This is demonstrated by a number of published results from microarray experiments in Gene Expression Omnibus. The number was growing in exponential pace over the last decade. The challenge of interpreting these vast amounts of data from different technologies led to the development of new methods in the fields of computational biology and bioinformatics. Researchers often want to represent biological phenomena in the most detailed and comprehensive way. However, due to the technological limitations and other factors like limited resources this is not always possible. On one hand, more detailed and comprehensive research generates data of high complexity that is very often difficult to approach analytically, however, giving bioinformatics a chance to draw more precise and deeper conclusions. On the other hand, for low-complexity tasks the data distribution is known and we can fit a mathematical model. Then, to infer from this mathematical model, researchers can use well-known and standard methodologies. In return for using standard methodologies, the biological questions we are answering might not be unveiling the whole complexity of the biological meaning. Nowadays it is a standard that a biological study involves generation of large amounts of data that needs to be analyzed with a statistical inference. Sometimes data challenge researchers with low complexity task that can be performed with standard and popular methodologies as in Proteomic analysis of mouse oocytes reveals 28 candidate factors of the "reprogrammome". There, we established a protocol for proteomics data that involves preprocessing of the raw data and conducting Gene Ontology overrepresentation analysis utilizing hypergeometric distribution. In cases, where the data complexity is high and there are no published frameworks a researcher could follow, randomization can be an approach to exploit. In two studies by The mouse oocyte proteome escapes maternal aging and CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we showed how randomization can be performed for distinct complex tasks. In The mouse oocyte proteome escapes maternal aging we constructed a random sample of semantic similarity score between oocyte transcriptome and random transcriptome subset of oocyte proteome size. Therefore, we could calculate whether the proteome is representative of the trancriptome. Further, we established a novel framework for Gene Ontology overrepresentation that involves randomization testing. Every Gene Ontology term is tested whether randomly reassigning all gene labels of belonging to or not belonging to this term will decrease the overall expression level in this term. In CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we validated CellFateScout against other well-known bioinformatics tools. We stated the question whether our plugin is able to predict small molecule effects better in terms of expression signatures. For this, we constructed a protocol that uses randomization testing. We assess here if the small molecule effect described as a (set of) active signaling pathways, as detected by our plugin or other bioinformatics tools, is significantly closer to known small molecule targets than a random path.
Ein Netzwerk aus Rezeptoren und Signalkaskaden reguliert Wachstum, Differenzierung und Ăberleben von Zellen. Wird dieses Netzwerk aus dem Gleichgewicht gebracht, können die Zellen zu Tumorzellen transformieren. Der epidermale Wachstumsfaktor Rezeptor (EGFR) stellt eine treibende Kraft in diesem Netzwerk dar und ist ein Ziel zahlreicher Tumortherapeutika. Aufgrund weitlĂ€ufiger Resistenzbildung ist die Identifizierung verantwortlicher Strukturen von groĂer Bedeutung um die entarteten Signalkaskaden synergistisch einzudĂ€mmen. Nach Aktivierung des EGFR wird eine signalspezifische Antwort durch Rekrutierung von Adapterproteinen an die intrazellulĂ€re DomĂ€ne initiiert. Die verĂ€nderte Zusammensetzung der Signalproteine könnte Angriffspunkte fĂŒr neue TherapieansĂ€tze enthĂŒllen. Um die zugrundeliegenden Mechanismen zu entschlĂŒsseln, wurden mehrere Proteom-Untersuchungen auf Zelllysate angewendet. Ungeachtet der SensitivitĂ€t moderner GerĂ€te stellt die Identifizierung niedrig-abundanter Proteine im Proteom einer Zelle jedoch eine Herausforderung dar. Die Identifizierung differentieller Proteinmuster des EGFR-Interaktom in AbhĂ€ngigkeit von Resistenz und Rezeptor variante war das Ziel dieser Arbeit. Der EGFR samt seiner Interaktionspartner wurde aus Zelllysaten prĂ€zipitiert. AnschlieĂend wurden die Proteine in einer SDS-PAGE aufgetrennt und nach in-Gel-Verdau mit LC-MS/MS analysiert. Aus Lysaten von A431-Zellen wurden 183 Proteine in vier Bioreplikaten detektiert. Darunter 15 direkte Interaktionspartner, wie GRB2, SHC1, SOS1/2, STAT1/3, AP2 sowie P85B. Die Berechnung des normalized spectral abundance factor (NSAF) anhand der Anzahl gemessener Spektren und der Molekularmasse eines Proteins ermöglichte eine relative Quantifizierung der Proteinmenge. Die Menge der coprĂ€zipitierten Proteine war nach EGFR-Aktivierung durch EGF fĂŒr 14 Proteine mehr als zweifach erhöht. Davon waren Untereinheiten des AP2 Komplexes am stĂ€rksten an aktivierten EGFR assoziiert. AbschlieĂend wurde die Interaktion mit AP2 und die neu aufgedeckte Interaktion mit CIP2A durch Immunfluoreszenz und Western Blot-Analyse bestĂ€tigt. Nachdem die FunktionalitĂ€t der Methode gezeigt werden konnte, wurde die Anwendung um das Modell einer akuten Afatinib-Resistenz erweitert. Im A431-Zellmodell wurde durch die Inkubation in Fibroblasten-konditioniertem Medium eine Resistenz gegen Afatinib beobachtet. Im Rahmen dieser Arbeit sollte ermittelt werden, ob sich der Einfluss der temporĂ€ren Resistenz am Interaktionsmuster des EGFR widerspiegelt. Die MS-Analyse identifizierte 145 Proteine deren Assoziation an EGFR durch Afatinib mindestens zweifach verringert wurde, darunter GRB2, SOS1, SHC1, STAT2/3 sowie PK3CB und P85B. Aus dieser Analyse wurde ein Pool aus 137 Proteinen ermittelt, die potentiell Teil des induzierten Resistenzmechanismus sein könnten. 32 Proteine, darunter TNAP2, AHNK, SPTCS und der Tumorsuppressor DIDO, weisen funktionelle Ăhnlichkeit zu Lungenkrebs auf. Daraufhin wurde die Methode auf das Modell einer chronisch erworbenen Resistenz der Lungenkarzinom-Zelllinie HCC4006 gegen Erlotinib angewendet. Die Analyse sollte zunĂ€chst differentielle Proteinmuster des Grundzustandes in AbhĂ€ngigkeit zur erworbenen Resistenz identifizieren. Die Morphologie der Erlotinib-resistenten HCC4006-Zellen weist Merkmale einer EMT auf, die als Resistenzmechanismus fĂŒr verschiedene Tumore beschrieben ist. Im Einklang mit dieser Beobachtung wurden Hinweise auf rege VerĂ€nderungen des Zytoskeletts in der vorliegenden MS-Analyse der resistenten HCC4006-Zellen gefunden. In unbehandelten Zellen wurden abhĂ€ngig vom Resistenz-Status der Zellen 178 Proteine mit mindestens zweifach verĂ€nderter Assoziation an EGFR detektiert. Darunter fanden sich die Proteine der Zytoskelettreorganisation Plectin, Spectrin und ZO1, welche in resistenten Zellen bis zu 70 fach erhöht waren. Das Angiogenese-Protein Nostrin ist hingegen nach Resistenzentwicklung stark vermindert. Nach Behandlung mit Erlotinib und EGF war die Assoziation von 148 Proteinen durch Erlotinib Resistenz verĂ€ndert. Darunter befanden sich HEAT1, EF1A1, UBS3B und AP3B1 die in sensitiven Zellen durch Erlotinib stĂ€rker dissoziierten als in den resistenten Zellen. AbschlieĂend wurde die differentielle Analyse auf zwei EGFR VarianteIII (vIII) transfizierte Glioblastomzelllinien ĂŒbertragen. In den P3-Zellen sind 95 Proteine in AbhĂ€ngigkeit der Rezeptorvariante zweifach verĂ€ndert an EGFR assoziiert. Darunter waren JAK1, GRB2, PRKDC und SNX-3, 17 und 27 vermehrt an vIII assoziiert, wohingegen PHB2 bevorzugt an Wildtyp-EGFR assoziiert. In den NCH421k Glioblastomzellen ist die AffinitĂ€t fĂŒr vIII bei 245 Proteinen zweifach verĂ€ndert. Darunter die Phosphokinasen P85A und P85B mit stark erhöhter vIII-AffinitĂ€t. FĂŒr vIII ist eine bevorzugte Initiierung des PI3K/AKT Signalweges, sowie eine konstitutive AktivitĂ€t bereits beschrieben. Mit dem Abschluss dieser Arbeit liegt ein Protokoll zur differentiellen Analyse der EGFR Interaktionsmuster vor