Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 1 of 1
Back to Result List

Bitte verwenden Sie diesen Link, wenn Sie dieses Dokument zitieren oder verlinken wollen: https://nbn-resolving.org/urn:nbn:de:gbv:9-001589-3

Analysis and Integration of Complex Omics Data of the SHIP Study

  • Genomics is the field of modern biology that studies the genome as the sum of all genes of a given organism. Genomics includes the analysis of genomic variations in order to identify genetic susceptibility loci for various human diseases. Besides genomics, there are related fields summarized by the term "Omics" such as transcriptomics and proteomics, studying the sum of all transcripts and proteins in a defined biological system, respectively. Genetic variants, namely single nucleotide polymorphisms (SNPs) and copy number variations (CNVs) are used to identify genomic loci associated with human traits and diseases. Genome-wide association studies (GWASs) based on SNP data have been performed for a wide range of human traits and diseases. In the population-based Study of Health in Pomerania (SHIP) and the independent SHIP-TREND study, whole-genome genotyping data were available for 4081 and 986 individuals, respectively. In contrast to the widely used GWAS based on SNPs, association studies using CNV data are difficult to implement and thus less common. Therefore, one aim of this work was to detect CNVs using the whole-genome genotyping data available for 4081 individuals from SHIP. Another aim was to develop an efficient workflow for the analysis of these CNVs. As most common genetic variants exhibit only relatively small effects on phenotypic variability, large sample sizes are needed to maximize the statistical power to detect such effects. Therefore, the integration of data from multiple collaborating studies is indispensable. In this context, several CNV studies with the SHIP data have been performed and published, for example on body mass index (BMI) phenotypes where the SHIP cohort was used as a population-based control. Trait-associated genetic markers identified through GWASs are often intergenic or synonymous coding, and those loci identified through whole-genome CNV analyses often contain multiple genes, making it difficult to identify the causal variants. In this context, the functional analysis of identified loci aids in determining causal variant(s). One possibility to conduct functional analysis is the expression quantitative trait loci (eQTL) analysis, defined as the association of genome-wide genotyping data with genome-wide gene expression data based on measured transcriptomes. This allows the identification of genetic variants influencing the expression levels of defined genes. A further example are transcriptome-wide association analysis (TWAS), defined as the association of phenotype data with whole-genome expression data. Thus, another aim of this work was to establish an analysis pipeline for processing such expression data, which were available for about 1000 individuals from the SHIP-TREND study. Here, array-based gene expression data were generated using RNA prepared from whole-blood. Interpretation of TWAS results is often difficult, because of possible reverse causation on gene expression data. Furthermore, technical errors of measurement may bias the results. In a comprehensive work, biological and technical factors influencing measured gene expression data have been identified and were subsequently taken into account to improve the association analyses. To further elucidate the molecular mechanisms underlying the relationship of gene expression levels with human traits or diseases, pathway analyses using the Ingenuity Pathway Analysis (IPA) tool have been performed in connection with the TWAS. As for GWASs, the associations identified in TWAS usually exhibit only small effect sizes, highlighting the need for larger studies or meta-analysis to identify all susceptibility variants. In this context several eQTL- and TWAS meta-analyses using the SHIP-TREND data have been performed, for example on the phenotypes age, sex, BMI, smoking status and serum lipid traits. The results of these analyses are in preparation for publication and the most advanced example, the correlation of expression data with BMI, is presented here. The integration of whole-genome genotyping and expression data provides new functional information of the underlying biological mechanisms of complex human traits and diseases. Within the frame of this work, this could be demonstrated for the example of susceptibility to Helicobacter pylori infection.
  • Die Genomik ist diejenige wissenschaftliche Disziplin, welche sich mit der Analyse des Genoms als der Gesamtheit aller Gene eines Organismus befasst. Bestandteil der Genomik ist auch die Analyse genomischer Variationen zur Identifizierung krankheitsrelevanter Genloci. Die Genomik wird zusammen mit verwandten Disziplinen unter dem Oberbegriff "Omics" zusammengefasst. So befassen sich beispielsweise Transkriptomik und Proteomik mit der Analyse sämtlicher in einer Zelle oder in einem spezifischen Gewebe oder Organ vorhandenen Transkripte bzw. Proteine. Die Analyse genetischer Variationen, namentlich Einzelnukleotid-Polymorphismen (SNP, engl. Single Nucleotide Polymorphism) und Kopienzahl-Variationen (CNV, engl. Copy Number Variation), dient der Identifizierung genomischer Loci, die mit bestimmten Phänotypen wie auch der Anfälligkeit für Krankheiten assoziiert sind. Für genomweite Assoziationsstudien (GWAS, engl. Genome-wide association study) stehen qualitativ hochwertige und umfassende Phänotypdaten aus den Populations-basierten Studien SHIP (Study of Health in Pomerania) und SHIP-TREND mit jeweils 4081 bzw. 986 Probanden zur Verfügung. Im Gegensatz zu den gängigen und seit Jahren etablierten GWAS auf der Basis von SNPs sind Assoziationsstudien mit CNVs technisch schwieriger durchzuführen und daher seltener. Deshalb bestand ein weiteres Ziel dieser Arbeit darin, mit Hilfe der in SHIP erhobenen Genotypisierungs-Daten CNVs zu berechnen sowie einen effizienten Workflow für die Durchführung CNV-basierter Assoziationsstudien zu entwickeln. Einzelne genetische Variationen haben oft nur relativ geringe Auswirkungen auf die phänotypische Variabilität, deshalb sind große Stichproben erforderlich, um valide Assoziationen zu finden, was die Integration von Daten aus mehreren Studien unabdingbar macht. In diesem Zusammenhang wurden mehrere CNV-Analysen unter Nutzung von SHIP-Daten durchgeführt, was auch in mehreren Publikationen seinen Niederschlag fand. Die SHIP-Studie fungierte hierbei als Populations-basierte Kontroll-Kohorte. Die durch GWAS identifizierten Phänotyp-assoziierten genetischen Marker sind oft in intergenischen Regionen lokalisiert oder synonym-codierend, und die durch CNV-Analysen identifizierten Regionen umfassen häufig mehrere Gene, wodurch die Identifizierung der kausativen Variante(n) erschwert wird. Eine Möglichkeit hierfür stellen weiterführende funktionelle Analysen dar, zu denen die eQTL- (engl. expression quantitative trait locus) Analysen gehören. Hierbei werden Variationen in der DNA (SNPs) mit mRNA-Mengen in Beziehung gesetzt. Weiterhin kann man Transkriptom-weite Assoziations-Studien (TWAS, engl. transcriptome-wide association study) durchführen, wobei hier der Zusammenhang zwischen Phänotypen und Veränderungen der Transkript-Menge untersucht wird. Für etwa 1000 Probanden der SHIP-TREND-Studie wurden Array-basierte Genexpression-Daten aus Vollblut erhoben. Die Analyse dieser Daten sowie die Etablierung einer automatisierten Analyse-Pipeline war ein weiteres Ziel dieser Arbeit. Die Interpretation von TWAS-Ergebnissen gestaltet sich oft schwierig, da die Richtung der Kausalität bei Assoziations-Studien häufig nicht eindeutig ist. Darüber hinaus können Messfehler die Ergebnisse verfälschen. In einer umfassenden Arbeit wurden daher biologische und technische Faktoren identifiziert, die die gemessenen Genexpression-Daten beeinflussen. Anschließend wurden diese als Kovariablen in den statistischen Modellen berücksichtigt, um die Assoziations-Analysen zu optimieren. Um weitere Hinweise auf diejenigen molekularen Mechanismen zu erhalten, die den Beziehungen zwischen gemessener Genexpression und spezifischen Phänotypen zugrunde liegen, wurden Pathway-Analysen durchgeführt. Für die im Rahmen dieser Arbeit durchgeführten Pathway-Analysen wurde das Ingenuity Pathway Analysis (IPA) Programm in Verbindung mit den TWAS verwendet. Die mittels TWASs identifizierten Assoziationen weisen, ähnlich wie bei den GWASs, in der Regel nur geringe Effektstärken auf, was auch hier die Notwendigkeit für größere Studien oder Meta-Analysen aufzeigt. In diesem Zusammenhang wurden mehrere eQTL- und TWAS-Meta-Analysen unter Verwendung der SHIP-TREND-Daten durchgeführt, beispielsweise für die Phänotypen Alter, Geschlecht, BMI, Rauchen und Serum-Lipid-Konzentrationen. Die Ergebnisse dieser Analysen werden gegenwärtig ausgewertet und zur Veröffentlichung vorbereitet. Die am weitesten fortgeschrittene Arbeit, die Analyse der Korrelation der mRNA-Daten mit dem Phänotyp Body Mass Index (BMI), wird hier vorgestellt. Die Integration von Genotypisierungs- und Genexpressions-Daten kann neue funktionelle Informationen über die zugrunde liegenden biologischen Mechanismen komplexer menschlicher Phänotypen und Krankheiten liefern. Im Rahmen dieser Arbeiten konnte dies für die Anfälligkeit für Helicobacter pylori-Infektion gezeigt werden.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author: Claudia Schurmann
URN:urn:nbn:de:gbv:9-001589-3
Title Additional (German):Analyse und Integration von komplexen Omics-Daten der SHIP-Studie
Advisor:Prof. Dr. Uwe Völker
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2013/09/20
Granting Institution:Ernst-Moritz-Arndt-Universität, Mathematisch-Naturwissenschaftliche Fakultät (bis 31.05.2018)
Date of final exam:2013/09/19
Release Date:2013/09/20
Tag:CNV; GWAS; SNP; TWAS; eQTL
CNV; GWAS; SNP; TWAS; eQTL
GND Keyword:Genetik
Faculties:Universitätsmedizin / Interfakultäres Institut für Genetik und Funktionelle Genomforschung (UMG)
DDC class:500 Naturwissenschaften und Mathematik / 570 Biowissenschaften; Biologie