Refine
Document Type
- Doctoral Thesis (11)
Has Fulltext
- yes (11)
Is part of the Bibliography
- no (11)
Keywords
- Statistik (11) (remove)
Institute
Ziel von Statistikkursen an Universitäten ist es, den Studierenden statistische Kompetenz als Grundlage des
wissenschaftlichen Arbeitens zu vermitteln. Trotzdem verlassen Studierende diese Kurse teilweise mit statistischen Fehlkonzepten und können das Gelernte in Studium und Praxis nicht anwenden. Zudem bereiten den Studierenden hohe Statistikangst und ein geringes Interesse an Statistik als Teil ihres Studienfachs Probleme.
In der vorliegenden Arbeit geht es um die Frage, wie Statistikkurse zu Studienbeginn gestaltet sein sollten, um die statistische Kompetenz der Studierenden besser zu fördern. Dabei wird davon ausgegangen, dass für statistische Kompetenz neben kognitiven Voraussetzungen in Form von gut vernetztem und in Schemata gespeichertem Wissen in Statistik und anderen Bereichen, auch motivationale Voraussetzungen notwendig sind. Als zentrale motivationale Voraussetzung werden dabei Kompetenzüberzeugungen in Statistik aufgefasst. Solche Kompetenzüberzeugungen zeigen nicht nur kurz- und langfristige Zusammenhänge zur Leistung, sondern stehen auch mit anderen motivationalen Konstrukten wie Angst oder Interesse in Verbindung. In der folgenden Arbeit wurden zwei Untersuchungen durchgeführt, welche auf die Bedeutung dieser Kompetenzüberzeugungen bei der Entwicklung und Förderung der statistischen Kompetenz in Statistikkursen fokussierten.
Die erste Untersuchung befasste sich damit, ob Kompetenzüberzeugungen zu Beginn eines Statistikkurses mit Lernverhalten und Leistung zum Ende des Kurses zusammenhängen. Dabei interessierte vor allem, ob a) eine besonders hohe oder eine besonders realistische Überzeugung von der eigenen statistischen Kompetenz zu Kursbeginn von Vorteil ist und b) ob eine Überzeugung von der Veränderbarkeit der statistischen Kompetenz die Einflüsse der anfänglichen Überzeugungen moderieren kann. In der Untersuchung wurden n = 88 Psychologiestudierende in mehreren Statistikkursen zu Beginn und zum Ende eines Semesters befragt. Es zeigte sich, dass eine hohe Kompetenzüberzeugung mit besseren Leistungen einhergeht – während die Kompetenzüberzeugung für bessere Leistungen nicht unbedingt auch realistisch sein muss. Zudem ist eine Überzeugung von der Veränderbarkeit von Kompetenz von Vorteil: sie kann negative Effekte einer geringen Kompetenzüberzeugung zu Beginn des Semesters auf die Leistung kompensieren, führt aber auch bei einer unrealistisch hohen Kompetenzüberzeugung zu besseren Leistungen. In der zweiten Untersuchung wurde analysiert, ob ein nach dem Lehrformat des „Inverted Classroom“ (IC) unterrichteter Statistikeinführungskurs die Kompetenzüberzeugungen und damit verbundene Konstrukte von Statistikangst und Interesse sowie die Leistung von Studierenden fördern kann. Letzteres sollte darauf zurückzuführen sein, dass im Gegensatz zu „traditionellen Vorlesungen“ (TL) im IC Möglichkeiten zur individuellen Anpassung des Kurses an die Voraussetzungen von Studierenden zur Verfügung stehen und die Studierenden so beim Lernen weniger überfordert und motivierter sind. In der Untersuchung wurden n = 27 Studierende ein Semester lang in einem Statistikkurs im IC und n = 43 Studierende in einem Kurs als TL unterrichtet. Eine zusätzliche Kontrollgruppe (KG) von n = 24 Studierenden erhielt keinen Kurs. Die Ergebnisse zeigten, dass Studierende im IC zwar bessere und auch homogener Leistungen erreichen als im TL, dies kann jedoch nicht auf die Überforderung oder Motivation beim Lernen zurückgeführt werden. Auch die Kompetenzüberzeugungen und das Interesse waren im IC deutlich höher. Sowohl im IC als auch in der TL wurde die Statistikangst im Semesterverlauf geringer, während sich in der KG keine Veränderung zeigt.
Zu Beginn der Statistikausbildung sollten infolgedessen Kompetenzüberzeugungen – insbesondere auch die Überzeugung von der Veränderbarkeit statistische Kompetenz – gefördert werden. Dazu sind individualisierte Lehrformate wie der IC geeignet, welche die Entwicklung statistischer Kompetenz und statistischer Kompetenzüberzeugungen ermöglichen. Solche individualisierten Lehrformate können nicht nur in Statistikkursen zu Beginn, sondern auch in Statistikkursen im weiteren Studienverlauf eingesetzt werden.
Zielsetzung: Ziel ist es, populationsbasierte MRT-Referenzwerte für den cervicalen Spinalkanalparameter sowie für die Wirbelkörper zu erheben und ihre Assoziationen zum spinalen Level, Geschlecht, Alter, Körpergröße, Körpergewicht und BMI zu untersuchen.
Material und Methoden: Diese Querschnittstudie basiert auf den Daten von 2453 Probanden im Alter zwischen 21 und 89 Jahren, die im Rahmen der Study of Health in Pomerania (SHIP) zwischen Juli 2008 und März 2011 an einem 1,5-Tesla-Ganzkörper-MRT teilnahmen. In einem standardisierten Verfahren wurden Messwerte der Wirbelsäule von HWK 2 bis HWK 7 in sagittalen T2-gewichteten TSE-Sequenzen erhoben.
Ergebnisse: Die Referenzintervalle für Spinalkanalparameter zeigten geringe Unterschiede zwischen den Geschlechtern. Im Mittel waren die Wirbelkörper bei Männern 2,1 bis 2,2 mm größer als bei Frauen. Alterseffekte waren lediglich für die Wirbelkörpergröße von größerem Ausmaß, hier betrug der Anstieg 0,5 mm über einen 10-Jahres-Unterschied. Effektgrößen der Körpergröße waren nur für den ossären Spinalkanal und der Wirbelkörpergröße von größerem Ausmaß. Die Effektgrößen von Körpergewicht und BMI waren zumeist gering.
Schlussfolgerung: Diese Studie zeigt zum ersten Mal MRT-Referenzwerte für Spinalkanalparameter in einer erwachsenen, kaukasischen Bevölkerung. Bis auf die Wirbelkörpergröße sind die Assoziationen mit Geschlecht, Alter und Somatometrie meistens gering und haben daher nur geringe klinische Aussagekraft. Manche der beschriebenen diagnostischen Parameter müssen eventuell revidiert werden, weil sie dazu neigen, Risiken für das Individuum zu überschätzen.
In this thesis, we elaborate upon Bayesian changepoint analysis, whereby our focus is on three big topics: approximate sampling via MCMC, exact inference and uncertainty quantification. Besides, modeling matters are discussed in an ongoing fashion. Our findings are underpinned through several changepoint examples with a focus on a well-log drilling data.
Aiming at the goal of individualized medicine, this dissertation develops a generic methodology to individualize risk factors and phenotypes via metabolomic data from the urine. As metabolomic data can be seen as a holistic representation of the metabolism of an organism at certain time point, metabolomic data contain not only information about current life-style factors like diet and smoking but also about latent genetic traits. Utilizing this integrative attribute, the dissertation delivers a metric for biological age (the metabolic age score) which was shown to be informative beyond chronological age in three independent samples. It was associated with a broad range of age-related comorbidities in two large population-based cohorts, predicted independently of classical risk factors mortality and, moreover, it predicted weight loss subsequently to bariatric surgery in a small sample of heavily obese individuals.
Subsequently to this work, the dissertation built a definitional framework justifying the procedure underlying the metabolic age score, delivering a general framework for the construction of individualized phenotypes and thereby an operationalization of individualization in statistical terms. Conceptualizing individualization of the process of differentiation of individuals showing the same phenotype despite different underlying biological traits, it was shown formally that the prediction error of a statistical model approximating a phenotype is always informative about the underlying biology beyond the phenotype if the predictors fulfill certain statistical requirements. Thus, the prediction error facilitates the meaningful differentiation of individuals showing the same phenotype. The definitional framework presented here is not restricted to any kind of data and is therefore applicable to a broad range of medical research questions.
However, when utilizing metabolomic data, technical factors, data-preprocessing, pre-analytic features introduce unwanted variance into the statistical modeling. Thus, it is unclear whether predictive models like the metabolic age score are stable enough for clinical application. The third part of this doctoral thesis provided two statistical criteria to decide which normalization method to remove the dilution variance from urinary metabolome data performs best in terms of erroneous variance introduced by the different methods, aiding the minimization of biological irrelevant variance in metabolomic analyses.
In conclusion, this doctoral thesis developed a general, applicable, definitional framework for the construction of individualized phenotypes and demonstrated the value of the methodology for clinical phenotypes on metabolomic data, improving on the way the statistical treatment of urinary data regarding the dilution correction.
In der vorliegenden Arbeit wurden mittels Doppelmessungen Messabweichungen
beschrieben, die trotz gültiger Qualitätskontrollen auftreten und deren Häufigkeit
bisher nicht transparent darstellbar war. Des Weiteren wurden neue Qualitätsmarker
auf der Basis von Doppelmessungen etabliert, die in Ergänzung zur
Qualitätssicherung zusätzliche Informationen über die analytische Leistungsfähigkeit
von Messverfahren liefern.
Die hier vorgestellten Qualitätsmarker AZ95, d.h. die Weite der A-Zone, bei der 95 %
aller Doppelmessungen innerhalb der A-Zone liegen und der OPM, d.h. die Anzahl
von Messfehlern pro 1000 Doppelmessungen bei einer festgelegten A-Zonen-Weite
von 5 %, dienen dem besseren Vergleich der analytischen Leistungsfähigkeit von
Messverfahren.
Die Kombination der Qualitätsmarker einer AZ95 von maximal 5 % und einem OPM
von maximal 50 wurde in der vorliegenden Studie für drei der neun untersuchten
Analyte, namentlich Calcium, TSH und Cholesterol erfüllt.
Darüber hinaus bietet das Modell der A-Zonen durch die variable Anpassung der AZonen-
Weite die Möglichkeit, individuelle Gütekriterien für einzelne Analyten
festzulegen.
Die hier neu eingeführten Qualitätsmarker stellen eine sinnvolle Ergänzung zur
Bewertung der analytischen Leistungsfähigkeit von Messverfahren dar und
ermöglichen die Berücksichtigung klinischer Anforderungen an ein Messverfahren
und bieten somit auch eine Entscheidungshilfe bei der Auswahl eines neuen
Messverfahrens.
Die vorliegende Arbeit ist im Bereich der parameterfreien Statistik anzusiedeln und beschäftigt sich mit der Anwendung von ordinalen Verfahren auf Zeitreihen und Bilddaten. Die Basis bilden dabei die sogenannten ordinalen Muster in ein bzw. zwei Dimensionen. Der erste Hauptteil der Arbeit gibt einen Überblick über die breiten Einsatzmöglichkeiten ordinaler Muster in der Zeitreihenanalyse. Mit ihrer Hilfe wird bei simulierten gebrochenen Brownschen Bewegungen der Hurst-Exponenten geschätzt und anhand von EEG-Daten eine Klassifikationsaufgabe gelöst. Des Weiteren wird die auf der Verteilung der ordinalen Muster beruhende Permutationsentropie eingesetzt, um in Magnetresonanztomographie (MRT)-Ruhedaten Kopfbewegungen der Probanden zu detektieren. Der zweite Hauptteil der Arbeit befasst sich mit der Erweiterung der ordinalen Muster auf zwei Dimensionen, um sie für Bilddaten nutzbar zu machen. Nach einigen Betrachtungen an fraktalen Oberflächen steht eine automatisierte und robuste Einschätzung der Qualität struktureller MRT-Daten im Vordergrund.
Psychiatric disorders are highly heritable. But the underlying molecular mechanisms are largely unknown or not understood. For many disorders, candidate genes have been proposed which are biologically driven or based on large GWAS studies. In this work different approaches were shown to investigate the impact of genetic risk factors for major psychiatric disorders in the general population. These genetic risk variants include single nucleotide polymorphisms associated with schizophrenia or major depression and were analyzed using the whole-genome information in polygenic scores or candidate marker analysis in GxE studies. Genetic data from SHIP-0 and SHIP-TREND have been used to calculate a polygenic risk score for schizophrenia. Here, the association between this genetic score and brain alterations is shown in three independent samples (SHIP-2, SHIP-TREND and BIG) which revealed no hint of a common genetic basis for schizophrenia and brain structure. These results are in line with other studies that also failed to find a genetic overlap. The same polygenic scores had been used in a PHEWAS analysis in SHIP-0 where an inverse association to migraine was found. This association could be attributed to the NMDA receptor activation via D-serine at the glutamatergic synapse. To assess the impact of environmental factors on the path from genes to phenotype, gene-environment interactions were applied. A significant interaction could be observed between rs7305115 (TPH2) and rs25531 (5-HTTLPR) and childhood abuse on current depression score in SHIP-LEGEND and SHIP-TREND. In summary, genetic variants associated with major psychiatric disorders can exhibit pleiotropic effects on common phenotypes in the general population.
Ergebnisse untersuchter Laborwerte von Patienten werden mit Referenzwerten von Gesunden abgeglichen und anhand vordefinierter Referenzbereiche ausgewertet. Mit Hilfe der damit gegebenen Information, ob sich ein gemessener Wert innerhalb der Norm – dem Referenzbereich – oder außerhalb dessen befindet, werden von Medizinern Diagnosen gestellt, Therapieentscheidungen getroffen oder der Krankheitsverlauf beurteilt. Wie aber entstehen Referenzbereiche? Wer legt sie wie fest und aufgrund welcher Daten? Was ist normal? Diese Fragen werden seit Jahrzehnten kontrovers diskutiert. Das über 25 Jahre alte, bisher größtenteils weltweit als Standard anerkannte Konzept zur Gewinnung von gesunden Referenzindividuen und der Ermittlung von Referenzgrenzen von der Internationalen Föderation für klinische Chemie und Laboratoriumsmedizin (IFCC) wird aus Gründen der schlechten Praktikabilität, eines zu hohen und von kleinen Laboreinrichtungen nicht tragbaren Kosten- und Zeitaufwandes oftmals nicht angewendet. Statt eigene, laborinterne Referenzbereiche zu bestimmen werden externe Referenzgrenzen aus der Literatur oder von anderen Laboratorien übernommen – welche aber nicht die regionale Bevölkerung, wie beispielsweise in ihrer Altersstruktur, repräsentieren. Die von der IFCC befürwortete prospektive Selektion der Referenzpopulation birgt neben diesem bestehenden Um-setzungsdefizit auch das Risiko, dass für in dem Probandenkollektiv unterrepräsen-tierte Subgruppen wie Frauen, Alte und Kinder wegen zu kleiner Stichprobenumfänge gar keine beziehungsweise keine aussagekräftigen Referenzgrenzen bestimmt werden können. Vermutungen wurden geäußert – zum Beispiel seitens der Internationalen Vereinigung für theoretische und angewandte Chemie (IUPAC), dass die von der IFCC anempfohlene statistische Methode der Ermittlung der Referenzbereiche aus den Konfidenzgrenzen der Quantilschätzer speziell für kleine Stichprobengrößen keine sehr zuverlässigen und präzisen Referenzbereiche liefert. Basierend auf diesem Verständnis bestand das Untersuchungsziel darin, den effek-tivsten Ansatz und die zuverlässigste Methode zur Bestimmung von medizinischen Referenzbereichen für labordiagnostische Parameter für alle Subpopulationen – explizit die der Frauen, Kinder und alten Menschen – zu finden, die insbesondere auch auf der Grundlage von kleinen Stichprobenmengen vertrauenswürdige Referenzgrenzen liefern. Zur Erreichung des Untersuchungszieles wurden Vergleiche von ausgewählten, aus der Fachliteratur entnommenen, vorangehend im Detail erläuterten Methoden und Verfahren zur Bestimmung von Referenzbereichen an konkreten Beispielen – an Labordaten von Nieren-gesunden Patienten aus dem Universitätsklinikum Greifswald, die im Jahr 2005 aufgenommen wurden – vorgenommen. Die drei Methoden der Quantilschätzung mit Konfidenzgrenzen laut der IFCC-Richtlinien, der Toleranzschätzung gemäß der IUPAC-Empfehlung sowie der Quantilregression, in Verbindung mit dem retrospektiven Selektionsverfahren für die Gewinnung der Referenzpopulation, wurden bei den drei verschieden großen Stichprobenumfängen N = 40, N = 120 und N = 2.000 angewendet und für 29 nach den biologischen Faktoren Alter und Geschlecht stratifizierten Subgruppen sowie allgemeinen Bezugsgruppen für die drei Nierenparameter Kreatinin, Harnstoff und Natrium berechnet. Die Güte der errungenen Referenzbereiche aus den drei verschiedenen Methoden wurde hinsichtlich der zwei Kriterien Zuverlässigkeit und Präzision bewertet und mit Referenzbereichen aus dem Laborkatalog des Instituts für Klinische Chemie und Laboratoriumsmedizin der Universitätsmedizin Greifswald abgeglichen – auch unter Berücksichtigung der ermittelten Alters- und/ oder Geschlechtseinflüsse auf die Referenzgrenzen. Anhand der gewonnenen Forschungsergebnisse konnte die Forschungsfrage wie folgt beantwortet werden: Zur Bestimmung von Referenzbereichen für alters- und geschlechtsunspezifische Laborparameter wie Natrium ist die Methode der parame-terfreien Toleranzschätzung, in Bezug auf eine Kombination mit dem retrospektiven Ansatz zur Gewinnung der Referenzpopulation, als beste Methode zu empfehlen. Zur Bestimmung von Referenzbereichen für alters- und/ oder geschlechtsspezifische Laborparameter wie Kreatinin oder Harnstoff ist die Methode der Quantilregression, in Bezug auf eine Kombination mit dem retrospektiven Ansatz zur Gewinnung der Referenzpopulation, als geeignetste Methode zu empfehlen. Die Methode der Quantilschätzung mit Konfidenzgrenzen nach dem IFCC-Konzept kann aufgrund der erarbeiteten Forschungsergebnisse zur Bestimmung von Referenzbereichen, in Bezug auf eine Kombination mit dem retrospektiven Ansatz zur Gewinnung der Referenzpopulation, nicht empfohlen werden. Beide als empfehlenswert herausgestellten Methoden sind auch für kleine Stichproben ab N = 40 anwendbar.
Approaches to the Analysis of Proteomics and Transcriptomics Data based on Statistical Methodology
(2014)
Recent developments in genomics and molecular biology led to the generation of an enormous amount of complex data of different origin. This is demonstrated by a number of published results from microarray experiments in Gene Expression Omnibus. The number was growing in exponential pace over the last decade. The challenge of interpreting these vast amounts of data from different technologies led to the development of new methods in the fields of computational biology and bioinformatics. Researchers often want to represent biological phenomena in the most detailed and comprehensive way. However, due to the technological limitations and other factors like limited resources this is not always possible. On one hand, more detailed and comprehensive research generates data of high complexity that is very often difficult to approach analytically, however, giving bioinformatics a chance to draw more precise and deeper conclusions. On the other hand, for low-complexity tasks the data distribution is known and we can fit a mathematical model. Then, to infer from this mathematical model, researchers can use well-known and standard methodologies. In return for using standard methodologies, the biological questions we are answering might not be unveiling the whole complexity of the biological meaning. Nowadays it is a standard that a biological study involves generation of large amounts of data that needs to be analyzed with a statistical inference. Sometimes data challenge researchers with low complexity task that can be performed with standard and popular methodologies as in Proteomic analysis of mouse oocytes reveals 28 candidate factors of the "reprogrammome". There, we established a protocol for proteomics data that involves preprocessing of the raw data and conducting Gene Ontology overrepresentation analysis utilizing hypergeometric distribution. In cases, where the data complexity is high and there are no published frameworks a researcher could follow, randomization can be an approach to exploit. In two studies by The mouse oocyte proteome escapes maternal aging and CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we showed how randomization can be performed for distinct complex tasks. In The mouse oocyte proteome escapes maternal aging we constructed a random sample of semantic similarity score between oocyte transcriptome and random transcriptome subset of oocyte proteome size. Therefore, we could calculate whether the proteome is representative of the trancriptome. Further, we established a novel framework for Gene Ontology overrepresentation that involves randomization testing. Every Gene Ontology term is tested whether randomly reassigning all gene labels of belonging to or not belonging to this term will decrease the overall expression level in this term. In CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we validated CellFateScout against other well-known bioinformatics tools. We stated the question whether our plugin is able to predict small molecule effects better in terms of expression signatures. For this, we constructed a protocol that uses randomization testing. We assess here if the small molecule effect described as a (set of) active signaling pathways, as detected by our plugin or other bioinformatics tools, is significantly closer to known small molecule targets than a random path.
We introduce a multi-step machine learning approach and use it to classify data from EEG-based brain computer interfaces. This approach works very well for high-dimensional EEG data. First all features are divided into subgroups and linear discriminant analysis is used to obtain a score for each subgroup. Then it is applied to subgroups of the resulting scores. This procedure is iterated until there is only one score remaining and this one is used for classification. In this way we avoid estimation of the high-dimensional covariance matrix of all features. We investigate the classifification performance with special attention to the small sample size case. For the normal model, we study the asymptotic error rate when dimension p and sample size n tend to infinity. This indicates how to defifine the sizes of subgroups at each step. In addition we present a theoretical error bound for the spatio-temporal normal model with separable covariance matrix, which results in a recommendation on how subgroups should be formed for this kind of data. Finally some techniques, for example wavelets and independent component analysis, are used to extract features of some kind of EEG-based brain computer interface data.
Parsimonious Histograms
(2010)
The dissertation is concerned with the construction of data driven histograms. Histograms are the most elementary density estimators at all. However, they require the specification of the number and width of the bins. This thesis provides two new construction methods delivering adaptive histograms where the required parameters are determined automatically. Both methods follow the principle of parsimony, i.e. the histograms are solutions of predetermined optimization problems. In both cases, but under different aspects, the number of bins is minimized. The dissertation presents the algorithms that solve the optimization problems and illustrates them by a number of numerical experiments. Important properties of the estimators are shown. Finally, the new developed methods are compared with standard methods by an extensive simulation study. By means of synthetic samples of different size and distribution the histograms are evaluated by special performance criteria. As one main result, the proposed methods yield histograms with considerably fewer bins and with an excellent ability of peak detection.