Refine
Year of publication
Document Type
- Doctoral Thesis (57)
- Article (30)
- Final Thesis (1)
Has Fulltext
- yes (88)
Is part of the Bibliography
- no (88)
Keywords
- - (21)
- Statistik (5)
- Numerische Mathematik (4)
- Optimale Kontrolle (4)
- fractal (4)
- permutation entropy (4)
- Bioinformatik (3)
- Fraktal (3)
- Optimale Steuerung (3)
- Selbstähnlichkeit (3)
- Algebra (2)
- Algorithmus (2)
- Bundle Gerbes (2)
- Fock-Raum (2)
- Funktionalanalysis (2)
- Hierarchie (2)
- Kategorientheorie (2)
- Logarithmic capacity (2)
- Lévy-Prozess (2)
- Mathematical Physics (2)
- Mathematische Modellierung (2)
- Modellierung (2)
- NOD1/2 (2)
- Netzwerk (2)
- Robuste Statistik (2)
- YOLOv4 (2)
- animal activity (2)
- animal monitoring (2)
- autocorrelation (2)
- cellular homeostasis (2)
- computer vision (2)
- microarray (2)
- order pattern (2)
- self-similarity (2)
- signal processing (2)
- statistics (2)
- time series (2)
- tuberculosis (2)
- (generalized) linear mixed model (1)
- (verallgemeinertes) lineares gemischtes Modell (1)
- 16S rRNA gene sequencing (1)
- 1H-NMR (1)
- 33C10 (1)
- 60B15 (1)
- 60H05 (primary) (1)
- <i>A. thaliana</i> (1)
- <i>Mycobacterium avium</i> ssp. <i>paratuberculosis</i> (MAP) (1)
- <i>Mycobacterium tuberculosis</i> (1)
- AUGUSTUS (1)
- Abweichung (1)
- Akute lymphatische Leukämie (1)
- Algebra Bundles (1)
- Algebra, Funktionalanalysis (1)
- Algorithmic Cheminformatics (1)
- Alignment (1)
- Alignment <Biochemie> (1)
- Alignment anchor (1)
- Approximationsalgorithmus (1)
- Assemblierung (1)
- Ausreißer (1)
- BAYES (1)
- BLAST (1)
- Barth syndrome, Cardiolipin, tafazzin, cellular proliferation, gene expression (1)
- Bayes-Netz (1)
- Beobachtungsprozess (1)
- Bernoulli convolution (1)
- Bernoulli convolutions (1)
- Bernoulli-Faltungen (1)
- Bialgebra (1)
- Bildklassifikation (1)
- Bioinformatics (1)
- Biomathematik , Bioinformatik (1)
- Blutdruck (1)
- Box-Cox-Transformation (1)
- Box-Cox-transformation (1)
- Brustkrebs (1)
- Bundle gerbe (1)
- Buneman theorem (1)
- Buscher rules (1)
- Bündelgerbe (1)
- CRF (1)
- Call Center (1)
- Cantor dust (1)
- Cantor set (1)
- Characteristic Attribute Organization System (1)
- Charge simulation method (1)
- Chromosomenaberration (1)
- Chromosomenanalyse (1)
- Clade Annotation (1)
- Class-imbalanced Data (1)
- Classification (1)
- Cluster (1)
- Clusteranalyse (1)
- Comparative Gene Finding (1)
- Comparative Genomics (1)
- Conformal map (1)
- Convergence of Markov chains (1)
- Convolutional Neural Networks (1)
- Covid-19 (1)
- DNA taxonomy (1)
- Darbellay-Vajda Partitionsregel (1)
- Darstellung (1)
- Data Science (1)
- Diagnostik (1)
- Dichteschätzung (1)
- Differentialgeometrie (1)
- Differentialgleichung (1)
- Differentialspiele (1)
- Dimensionsreduktion (1)
- Diskrete Optimierung (1)
- Dual Decomposition (1)
- Dual Fitting (1)
- Dualität (1)
- Dynamical System (1)
- Dynamische Systeme (1)
- ELISA (1)
- Elastizitätstheorie (1)
- Elektrodiagnostik (1)
- Elektroencephalogramm (1)
- Elektrokardiogramm (1)
- Entropie (1)
- Enzym (1)
- Eulerian numbers (1)
- Evolution (1)
- Evolution der Genregulation (1)
- Evolution of Gene Regulation (1)
- Expressionsdaten (1)
- Fast multipole method (1)
- Fehler in Variablen Modellen (1)
- Fettleber (1)
- Freies Produkt (1)
- GMRES method (1)
- GNS-Konstruktion (1)
- Gammaverteilung (1)
- Ganzzahlige lineare Optimierung (1)
- Gene Structure Prediction (1)
- Gene prediction (1)
- Genetic Evolution (1)
- Genetische Netzwerke (1)
- Genome Annotation (1)
- Genome alignment (1)
- Genregulation (1)
- Geometric hashing (1)
- Geometrie (1)
- Geometry (1)
- Germany (1)
- Gewöhnliche Differentialgleichungen (1)
- Graph (1)
- Graph Theory (1)
- Graphentheorie (1)
- Graphenzeichnen (1)
- Green’s function (1)
- Grenzwertsatz (1)
- Harn (1)
- Hausdorff-Dimension (1)
- Heart Beat Detection (1)
- Herzfrequenzvariabilität (1)
- Herzschlagerkennung (1)
- High-Dimensional Data (1)
- Highest density regions (1)
- Histogramm (1)
- Histogramm-Konstruktion (1)
- Histogramme (1)
- Hoch-dimensionale Daten (1)
- Hochdurchsatz (1)
- Homotopie (1)
- Homotopy methods (1)
- Hopf bundle (1)
- Hopf-Algebra (1)
- Hopfbündel (1)
- Hutchinson Operator (1)
- Hutchinson-Operator (1)
- Hybride stochastische Modelle (1)
- Hybridisierung (1)
- IL-10 (1)
- Image Classification (1)
- Imbalancierte Daten (1)
- In-Host Modeling (1)
- Infinite Dimensional Geometry (1)
- Informationsabhängigkeit (1)
- Informationsvisualisierung (1)
- Innerwurfvarianz (1)
- Integer Linear Program (1)
- Interaktionsfläche (1)
- Interpretability (1)
- Interpretable Machine Learning (1)
- Iterated Function System (1)
- Iteriertes Funktionensystem (1)
- Kernspintomografie (1)
- Klassifikation (1)
- Klimaschwankungen (1)
- Kotensorfunktor (1)
- L1-Regression (1)
- Labelingproblem (1)
- Lagrangian Relaxation (1)
- Latent Structure (1)
- Lemniscatic domain (1)
- Leukämie (1)
- Level-Set-Methode (1)
- Lie-Algebra (1)
- Likelihood-Quotienten-Test (1)
- Linear Elasticity (1)
- Lineare Elastizitätstheorie (1)
- Lévy processes (1)
- Lévy-prozess (1)
- MATLAB (1)
- MCMC (1)
- MRI (1)
- Mahalanobisdistanz (1)
- Mapping (1)
- Markierungswiederherstellung (1)
- Markov-Kette (1)
- Maschinelles Lernen (1)
- Mathematical Phylogenetic (1)
- Mathematical Phylogenetics (1)
- Mathematik (1)
- Mathematische Phylogenetik (1)
- Maximumprinzip (1)
- Maßanalyse (1)
- Medizin (1)
- Metabolismus (1)
- Metagenomanalyse (1)
- Microarray (1)
- Miniprot (1)
- Minkowski-Metrik (1)
- Model selection (1)
- Modeling Infection (1)
- Modeling Tryptophan-Metabolism (1)
- Modeling in Pigs (1)
- Modeling of Infectious Diseases (1)
- Monoidale Kategorie (1)
- Multiply connected domain (1)
- Mustererkennung (1)
- NGS (1)
- NLRP1 (1)
- NLRP3 (1)
- NOD-like receptors (1)
- NOD‐like receptors (1)
- NP-completeness (1)
- NP-vollständiges Problem (1)
- Network (1)
- Next Generation Sequencing (1)
- Nichtkommutative Wahrscheinlichkeit (1)
- Nichtlineare Optimierung (1)
- Nichtlineares dynamisches System (1)
- Niere (1)
- Nilpotente Lie-Algebra (1)
- Normalverteilung (1)
- One Health (1)
- Optimal Control (1)
- Optimal control (1)
- Optimalsteuerung (1)
- Optimierung (1)
- Outlier Detection (1)
- Outlier-Erkennung (1)
- PD-L1 (1)
- PDE (1)
- Paläoklimarekonstruktion (1)
- Parameter <Mathematik> (1)
- Permutationsentropie (1)
- Perron-Frobenius theorem (1)
- Photoplethysmogram (1)
- Phylogenetic tree (1)
- Phylogenetics (1)
- Physiologie (1)
- Pisot-Zahl (1)
- Plethysmogramm (1)
- Podocyte (1)
- Polynomial pre-image (1)
- Position Specific Scoring Matrix (1)
- Protein (1)
- Protein coding gene (1)
- Proteine (1)
- Proteinwechselwirkungsstelle (1)
- Protonen-NMR-Spektroskopie (1)
- Pseudo-Riemannscher Raum (1)
- Quanten-Lévy-Prozess (1)
- Quantengruppe (1)
- Quantenwahrscheinlichkeitstheorie (1)
- Quantifizierung (1)
- Quasi-Pseudo-Metrik (1)
- RIEMS (1)
- RR Intervals (1)
- RR-Abstände (1)
- Random matrices (1)
- Randomisierung (1)
- Rechenmethoden (1)
- SNP-specific alpha-level, colocalization (1)
- SPecies IDentity and Evolution in R (1)
- Schale (1)
- Schalentheorie (1)
- Scheduling (1)
- Schwein (1)
- Segmentierung (1)
- Self-assembling protein design (1)
- Sequentielle Optimierung (1)
- Shells (1)
- Signal (1)
- Signalanalyse (1)
- Simulation (1)
- Slice (1)
- Spaced seeds (1)
- Spannender Baum (1)
- Spektrum (1)
- Spike and Slab (1)
- Sprungbestrafte Schätzer (1)
- Statistics (1)
- Statistische Analyse (1)
- Statistischer Test (1)
- Stetiger Markov-Prozess (1)
- Stoffwechselkrankheit (1)
- Stoffwechselweg (1)
- String Geometry (1)
- Stückweise deterministischer Markov Prozess (1)
- Symplektischer Raum (1)
- System von gewöhnlichen (1)
- T-Duality (1)
- T-Dualität (1)
- Taxonomie (1)
- Tensoralgebra (1)
- Test von zufälligen Effekten (1)
- Tollwut (1)
- Transcription Factor Binding Site (1)
- Transfer Operator (1)
- Transfer-Operator (1)
- Transkriptionsfaktorbindestellen (1)
- Translokation (1)
- Treemap (1)
- Tryptophan (1)
- Tryptophan-Metabolism (1)
- Twisted K-Theory (1)
- Unabhängigkeitanalyse (1)
- Ungewissheit (1)
- Urinary albumin to creatinine ratio (UACR) (1)
- Variationsrechnung (1)
- Visualisierung (1)
- Visualization (1)
- Vorhersage (1)
- X-splits (1)
- Zufallsmatrizen (1)
- Zylinderschale (1)
- aging (1)
- alternative splicing (1)
- animal behavior (1)
- animal welfare (1)
- aperiodic tile (1)
- bacterial-fungal interaction (1)
- beta-representation (1)
- bioinformatics (1)
- biologischer Quellen (1)
- body posture (1)
- cattle trade (1)
- cell biology (1)
- cell fractionation (1)
- classification models (1)
- clustering (1)
- co-transcriptional regulation (1)
- community detection (1)
- concentration coefficient (1)
- conditional association analysis (1)
- conditional random field (1)
- dairy cows (1)
- diagnostic (genetic) characters (1)
- drug (1)
- duale Halbgruppe (1)
- emerging diseases (1)
- environmental samples (1)
- epidemic model (1)
- estimated glomerular filtration rate (eGFR) (1)
- exhaled breath (1)
- expression quantitative trait loci (eQTL) (1)
- fecal culture (1)
- fecal headspace (1)
- fluorescent pseudomonads (1)
- free probability (1)
- fungal growth inhibition (1)
- gamma distribution (1)
- gene expression (1)
- genome-wide association studies (GWAS) (1)
- granuloma (1)
- high temperature (1)
- histogram construction (1)
- histograms (1)
- hybridization (1)
- immunology (1)
- inborn errors of metabolism (1)
- infectious diseases (1)
- inflammation (1)
- influenza A virus infection (1)
- innate immunity (1)
- integrative taxonomy (1)
- invariant measure (1)
- invariantes Maß (1)
- konsistente Schätzung (1)
- kw: Graph Theory (1)
- latent class model (1)
- liver disease (1)
- mRNA (1)
- machine learning (1)
- mathematical modeling (1)
- mathematical statistics (1)
- mathematische Statistik (1)
- maximum parsimony (1)
- metaproteome (1)
- microRNA (1)
- microbiome (1)
- microfluidic device (1)
- migratory connectivity (1)
- milk pools (1)
- mixed binomial point process (1)
- mixture proposals (1)
- modeling (1)
- modularity (1)
- multinomial distribution (1)
- multiple sequence alignment (1)
- myeloid-derived suppressor cells (1)
- neighbor map (1)
- network analysis (1)
- neutrophils (1)
- nichtparametrische Dichteschätzung (1)
- non-commutative independences (1)
- nonparametric density estimation (1)
- normal distribution (1)
- observation process (1)
- oocyte (1)
- ordinal (1)
- ordinal time series (1)
- ordinale Muster (1)
- outlier detection (1)
- ovine anaplasmosis (1)
- parametric bootstrap (1)
- parametrisches Bootstrap (1)
- paratuberculosis (1)
- pathogens (1)
- pathology (1)
- pattern (1)
- phylogenetic (1)
- plant pathogen (1)
- pn: Nikolai Nøjgaard (1)
- pre-mRNA (1)
- probabilistic interface labeling problem (1)
- profile hidden Markov model (1)
- protein (1)
- proteome (1)
- quadratic number field (1)
- quantum groups (1)
- quantum probability (1)
- rabies (1)
- random forest (1)
- randomization (1)
- real-time PCR (1)
- red foxes (1)
- regulatory networks (1)
- relative entropy (1)
- reprogramming (1)
- restricted M-splines (1)
- räumliches Überleben (1)
- self-similar (1)
- sheep (1)
- sleep stages (1)
- small molecule (1)
- snoRNAs (1)
- sparsame Darstellung von Daten (1)
- sparse representation of data (1)
- spatial survival (1)
- spectrum (1)
- sphingolipid metabolism (1)
- splicing regulation (1)
- stable air (1)
- stichprobenabhängige Partitionsregel (1)
- stochastic block model (1)
- subsp. (1)
- systems biology (1)
- test of random effects (1)
- tick-borne fever (1)
- tiling, self-similarity, fractal, aperiodic, iterated function system (1)
- tissue specificity (1)
- trans dimensional sampling (1)
- universelles Produkt (1)
- virology (1)
- volatile organic compound (VOC) (1)
- within-litter variation (1)
Institute
- Institut für Mathematik und Informatik (88) (remove)
Publisher
- MDPI (14)
- Frontiers Media S.A. (6)
- Springer Nature (4)
- BioMed Central (BMC) (2)
- Oxford University Press (1)
- Wiley (1)
In the PhD-thesis a conditional random field approach and its implementation is presented to predict the interaction sites of protein homo- and heterodimers using the spatial structure of one protein partner from a complex. The method includes a substantially simple edge feature model. A novel node feature class is introduced that is called -change in free energy-. The Online Large-Margin algorithm is adapted in order to train the model parameters given a classified reference set of proteins. A significantly higher prediction accuracy is achieved by combining our new node feature class with the standard node feature class relative accessible surface area. The quality of the predictions is measured by computing the area under the receiver operating characteristic.
The constructions of Lévy processes from convolution semigroups and of product systems from subproduct systems respectively, are formally quite similar. Since there are many more comparable situations in quantum stochastics, we formulate a general categorial concept (comonoidal systems), construct corresponding inductive systems and show under suitable assumptions general properties of the corresponding inductive limits. Comonoidal systems in different tensor categories play a role in all chapters of the thesis. Additive deformations are certain comonoidal systems of algebras. These are obtained by deformation of the algebra structure of a bialgebra. If the bialgebra is even a Hopf algebra, then compatibility with the antipode automatically follows. This remains true also in the case of braided Hopf algebras. Subproduct systems are comonoidal systems of Hilbert spaces. In the thesis we deal with the question, what are the possible dimensions of finite-dimensional subproduct systems. In discrete time, this can be reduced to the combinatorial problem of determining the complexities of factorial languages. We also discuss the rational and continuous time case. A further source for comonoidal systems are universal products, which are used in quantum probability to model independence. For the (r,s)-products, which were recently introduced by S. Lachs, we determine the corresponding product of representations by use of a generalized GNS-construction.
This thesis revolves around a new concept of independence of algebras. The independence nicely fits into the framework of universal products, which have been introduced to classify independence relations in quantum probability theory; the associated product is called (r,s)-product and depends on two complex parameters r and s. Based on this product, we develop a theory which works without using involutive algebras or states. The following aspects are considered: 1. Classification: Universal products are defined on the free product of algebras (the coproduct in the category of algebras) and model notions of independence in quantum probability theory. We distinguish universal products according to their behaviour on elements of length two, calling them (r,s)-universal products with complex parameters r and s respectively. In case r and s equal 1, Muraki was able to show that there exist exactly five universal products (Muraki’s five). For r equals s nonzero we get five one parameter families (q-Muraki’s five). We prove that in the case r not equal to s the (r,s)-product, a two parameter deformation of the Boolean product, is the only universal product satisfying our set of axioms. The corresponding independence is called (r,s)-independence. 2. Dual pairs and GNS construction: By use of the GNS construction, one can associate a product of representations with every positive universal product. Since the (r,s)-product does not preserve positivity, we need a substitute for the usual GNS construction for states on involutive algebras. In joint work with M. Gerhold, the product of representations associated with the (r,s)-product was determined, whereby we considered representations on dual pairs instead of Hilbert spaces. This product of representations is - as we could show - essentially different from the Boolean product. 3. Reduction and quantum Lévy processes: U. Franz introduced a category theoretical concept which allows a reduction of the Boolean, monotone and antimonotone independence to the tensor independence. This existing reduction could be modified in order to apply to the (r,s)-independence. Quantum Lévy processes with (r,s)-independent increments can, in analogy with the tensor case, be realized as solutions of quantum stochastic differential equations. To prove this theorem, the previously mentioned reduction principle in the sense of U. Franz and a generalization of M. Schürmann’s theory for symmetric Fock spaces over dual pairs are used. As the main result, we obtain the realization of every (r,s)-Lévy process as solution of a quantum stochastic differential equation. When one, more generally, defines Lévy processes in a categorial way using U. Franz’s definition of independence for tensor categories with inclusions, compatibility of the inclusions with the tensor category structure plays an important role. For this thesis such a compatibility condition was formulated and proved to be equivalent to the characterization proposed by M. Gerhold. 4. Limit distributions: We work with so-called dual semigroups in the sense of D. V. Voiculescu (comonoids in the tensor category of algebras with free product). The polynomial algebra with primitive comultiplication is an example for such a dual semigroup. We use a "weakened" reduction which we call reduction of convolution and which essentially consists of a cotensor functor constructed from the symmetric tensor algebra. It turns dual semigroups into commutative bialgebras and also translates the convolution exponentials. This method, which can be nicely described in the categorial language, allows us to formulate central limit theorems for the (r,s)-independence and to calculate the correponding limit distributions (convergence in moments). We calculate the moments appearing in the central limit theorem for the (r,s)-product: The even moments are homogeneous polynomials in r and s with the Eulerian numbers as coefficients; the odd moments vanish. The moment sequence that we get from the central limit theorem for an arbitrary universal product is the moment sequence of a probability measure on the real line if and only if r equals s greater or equal to 1. In this case we present an explicit formula for the probability measure.
High-throughput expression data have become the norm in molecular biology research. However, the analysis of expression data is statistically and computationally challenging and has not kept up with their generation. This has resulted in large amounts of unexplored data in public repositories. After pre-processing and quality control, the typical gene expression analysis workflow follows two main steps. First, the complexity of the data is reduced by removing the genes that are redundant or irrelevant for the biological question that motivated the experiment, using a feature selection method. Second, relevant genes are investigated to extract biological information that could aid in the interpretation of the results. Different methods, such as functional annotation, clustering, network analysis, and/or combinations thereof are useful for the latter purpose. Here, I investigated and presented solutions to three problems encountered in the expression data analysis workflow. First, I worked on reducing complexity of high-throughput expression data by selecting relevant genes in the context of the sample classification problem. The sample classification problem aims to assign unknown samples into one of the known classes, such as healthy and diseased. For this purpose, I developed the relative signal-to-noise ratio (rSNR), a novel feature selection method which was shown to perform significantly better than other methods with similar objectives. Second, to better understand complex phenotypes using high-throughput expression data, I developed a pipeline to identify the underlying biological units, as well as their interactions. These biological units were assumed to be represented by groups of genes working in synchronization to perform a given function or participate in common biological processes or pathways. Thus, to identify biological units, those genes that had been identified as relevant to the phenotype under consideration through feature selection methods were clustered based on both their functional annotations and expression profiles. Relationships between the associated biological functions, processes, and/or pathways were investigated by means of a co-expression network. The developed pipeline provides a new perspective to the analysis of high-throughput expression data by investigating interactions between biological units. Finally, I contributed to a project where a network describing pluripotency in mouse was used to infer the corresponding network in human. Biological networks are context-specific. Combining network information with high-throughput expression data can explain the control mechanisms underlying changes and maintenance of complex phenotypes. The human network was constructed on the basis of orthology between mouse and human genes and proteins. It was validated with available data in the literature. The methods and strategies proposed here were mainly trained and tested on microarray expression data. However, they can be easily adapted to next-generation sequencing and proteomics data.
Approaches to the Analysis of Proteomics and Transcriptomics Data based on Statistical Methodology
(2014)
Recent developments in genomics and molecular biology led to the generation of an enormous amount of complex data of different origin. This is demonstrated by a number of published results from microarray experiments in Gene Expression Omnibus. The number was growing in exponential pace over the last decade. The challenge of interpreting these vast amounts of data from different technologies led to the development of new methods in the fields of computational biology and bioinformatics. Researchers often want to represent biological phenomena in the most detailed and comprehensive way. However, due to the technological limitations and other factors like limited resources this is not always possible. On one hand, more detailed and comprehensive research generates data of high complexity that is very often difficult to approach analytically, however, giving bioinformatics a chance to draw more precise and deeper conclusions. On the other hand, for low-complexity tasks the data distribution is known and we can fit a mathematical model. Then, to infer from this mathematical model, researchers can use well-known and standard methodologies. In return for using standard methodologies, the biological questions we are answering might not be unveiling the whole complexity of the biological meaning. Nowadays it is a standard that a biological study involves generation of large amounts of data that needs to be analyzed with a statistical inference. Sometimes data challenge researchers with low complexity task that can be performed with standard and popular methodologies as in Proteomic analysis of mouse oocytes reveals 28 candidate factors of the "reprogrammome". There, we established a protocol for proteomics data that involves preprocessing of the raw data and conducting Gene Ontology overrepresentation analysis utilizing hypergeometric distribution. In cases, where the data complexity is high and there are no published frameworks a researcher could follow, randomization can be an approach to exploit. In two studies by The mouse oocyte proteome escapes maternal aging and CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we showed how randomization can be performed for distinct complex tasks. In The mouse oocyte proteome escapes maternal aging we constructed a random sample of semantic similarity score between oocyte transcriptome and random transcriptome subset of oocyte proteome size. Therefore, we could calculate whether the proteome is representative of the trancriptome. Further, we established a novel framework for Gene Ontology overrepresentation that involves randomization testing. Every Gene Ontology term is tested whether randomly reassigning all gene labels of belonging to or not belonging to this term will decrease the overall expression level in this term. In CellFateScout - a bioinformatics tool for elucidating small molecule signaling pathways that drive cells in a specific direction we validated CellFateScout against other well-known bioinformatics tools. We stated the question whether our plugin is able to predict small molecule effects better in terms of expression signatures. For this, we constructed a protocol that uses randomization testing. We assess here if the small molecule effect described as a (set of) active signaling pathways, as detected by our plugin or other bioinformatics tools, is significantly closer to known small molecule targets than a random path.
Die dem Leben zugrundeliegenden Prozesse sind hochkomplex. Sie werden zu einem Großteil durch Proteine umgesetzt. Diese spielen eine tragende Rolle für die morphologische Struktur und Vielfalt sowie Spezifität der Fähigkeiten der verschiedenen Zelltypen. Jedoch wirken Proteine nicht isoliert für sich allein sondern indem sie miteinander oder mit anderen Molekülen in der Zelle (DNA, Metabolite, Signalstoffe etc.) wechselwirken. Gerät dieses Geflecht von aufeinander abgestimmten Wechselwirkungen aus dem Gleichgewicht, kann das eine Ursache für Erkrankungen sein. Die Kenntnis über fehlregulierte Interaktionen kann dabei helfen, die betreffende Krankheit besser zu verstehen und gegen sie zu intervenieren. Die vorliegende Dissertation beschäftigt sich mit der Identifizierung von solch differentiell regulierten Interaktionen. Im Rahmen der Arbeit wurde eine Methode mit dem Namen ExprEssence entwickelt, welche diejenigen Interaktionen in einem Protein-Protein-Interaktionsnetzwerk identifiziert, die sich zwischen zwei verglichenen Zuständen (z.B. krank versus gesund) am stärksten unterscheiden. Ziel ist es, das Netzwerk auf die wesentlichen Unterschiede zwischen den zwei untersuchten Zuständen zu reduzieren. Hierzu werden Genexpressions- oder Proteomdaten der beiden Zustände in das bereits bestehende Netzwerk integriert. Aus diesen Daten wird die Stärke/Häufigkeit des Auftretens der einzelnen Interaktionen des Netzwerks geschätzt. Die Interaktionen, deren Interaktionsstärken sich zwischen den betrachteten Zuständen am stärksten unterscheiden, werden beibehalten – die restlichen Interaktionen werden verworfen. Dies ergibt ein verkleinertes Subnetzwerk, das aus jenen Interaktionen besteht, die am stärksten differentiell reguliert sind. Diese Interaktionen und ihre Proteine sind Kandidaten für eine Erklärung der biologischen Unterschiede der betrachteten Zustände auf molekularem Niveau. Die Methode wurde auf verschiedene biologische Fragestellungen angewandt und mit anderen ähnlichen Methoden verglichen. Bei der Untersuchung der Unterschiede zwischen Erfolg und Misserfolg einer chemotherapeutischen Brustkrebstherapie konnte beispielsweise gezeigt werden, dass das mit ExprEssence erstellte Subnetzwerk einen stärkeren Bezug zu den bereits bekannten Therapieerfolg-relevanten Mechanismen aufweist als die Methoden, mit denen ExprEssence verglichen wurde. Weiterhin wurde im Subnetzwerk eine möglicherweise für den Therapieerfolg relevante Interaktion identifiziert, die in diesem Zusammenhang bisher nicht betrachtet wurde. Deren Bedeutung konnte in der experimentellen Nachverfolgung weiter untermauert werden. Einen weiteren Schwerpunkt der Arbeit bildete die Untersuchung des Interaktoms eines spezialisierten Zelltyps der Niere – des Podozyten. Dieser Zelltyp ist essentiell für die Filtrationskompetenz der Niere. Ein Interaktionsnetzwerk mit spezifisch für den Podozyten relevanten Interaktion gib es bisher nicht. Daher wurde ein Podozyten-spezifisches Protein-Protein-Interaktionsnetzwerk aus wissenschaftlichen Veröffentlichungen zusammengestellt und öffentlich verfügbar gemacht. Genexpressionsdaten vielfältiger Art, beispielsweise von Podozyten in verschiedenen Entwicklungsstadien oder in Zellkultur, wurden in das Netzwerk integriert und mit ExprEssence analysiert. So konnte beispielsweise gezeigt werden, dass die Dedifferenzierung von in Kultur gehaltenen Podozyten nicht dem Umkehrweg der zuvor durchlaufenen Differenzierung entspricht. Neben ExprEssence wurde weitere Software entwickelt, die die Anwendbarkeit von ExprEssence erweitert – MovieMaker und ExprEsSector. Mit MovieMaker werden die Übergänge zwischen den betrachteten Zuständen nachvollziehbarer visualisiert. ExprEsSector bildet die Vereinigungs- und Schnittmengen-Netzwerke von ExprEssence-Subnetzwerken. So können beispielsweise verschiedenen Krankheiten gemeinsame Veränderungen vom Normalzustand identifiziert werden. Ist für eine Krankheit bereits ein Therapieansatz vorhanden, der auf eine fehlregulierte Interaktion einwirkt, und ist diese Interaktion auch in der anderen Krankheit gleichartig differentiell reguliert, kann geprüft werden, ob diese Therapie auf die zweite Krankheit übertragen werden kann. Neben der Vorstellung und Diskussion der erzielten Ergebnisse, wird auch auf methodisch bedingte Nachteile eingegangen. Es werden Strategien aufgezeigt, wie die negativen Einflüsse möglichst minimiert werden können oder wie sie bei der Bewertung der Ergebnisse zu berücksichtigen sind. In Anbetracht der immer schneller ansteigenden Menge biologischer Daten ist es eine wesentliche Herausforderung geworden, aus diesen die essentiellen Informationen zu extrahieren. Der integrative Ansatz der Verknüpfung von Informationen verschiedener Quellen wurde mit ExprEssence und den Erweiterungen MovieMaker und ExprEsSector in einem Konzept zur Identifizierung zustandsrelevanter molekularer Mechanismen in intuitiv leicht erfassbarer Form umgesetzt.
Betrachtet werden Optimalsteuerungsaufgaben der dreidimensionalen Fischpopulationsmodelle. Solche Modelle gehören zu der Klasse der sogenannten Lotka-Volterra-Modelle. Fischerei-Probleme mit Steuerungen werden für Steuerungsfunktionen verschiedener Klassen gelöst. Der Schwerpunkt der Arbeit liegt auf den notwendigen Optimalitätsbedingungen, die mit Hilfe des Bellman-Prinzips hergeleitet werden.
The study of sow reproduction traits is important in livestock science and production to increase animal survival and economic efficiency. This work deals with the detection of different effects on within-litter variance of birth weight by applying different statistical models with different distributional assumptions. The piglets within one litter were separated by sex. The trait of sow was formed from the sample variances of birth weights within litter separated by sex to consider the sex effect on mean birth weight. A linear mixed model (LMM) approach was fitted to the logarithmized sample variance and the sample standard deviation. A generalized linear mixed model with gamma distributed residuals and log-link function was applied to the untransformed sample variance. Appropriate weights were constructed to account for individual litter sizes. Models were compared by analysing data from Landrace and Large White. The estimates of heritability for the different traits ranged from 6-14%. The LMM for the weighted standard deviation of birth weights was identified as most suitable in terms of residual normality. Furthermore, the impact of piglets´ sex on birth weight variability was tested, but it was only proved for one practical dataset. Additionally, we analysed the influence of including or not including birth weights of stillborn piglets on the estimates of variance components of birth weight variability. With omitted stillborns the estimates of heritability resulted in about 2% higher values than in investigations of total born piglets. We were interested in the presence of the random boar effect on birth weight variability. The corresponding variance component was tested via restricted likelihood ratio test. Among others, the null distribution of the test statistic was approximated by parametric bootstrap simulations which were computational intensive. We picked up a two-parametric approach from literature and proposed a three-parametric approach to approximate the null distribution of the test statistic. We have analysed correlated data in balanced (simulated data) and unbalanced (empirical data) designs. The two-parametric approach using a scaled mixture of chisquare-distributions as well as a three-parametric approach, that uses a mixture of the point mass at zero and a gamma distribution, behaved most solid in all investigations and were most powerful in the simulation study.
Im Rahmen des hier verwendeten abstrakten, nichtkommutativen Unabhängigkeitsbegriffs gibt es nach dem Klassifikationssatz von Muraki genau fünf konkrete Unabhängigkeitsbegriffe: Tensor, boolesch, frei, monoton und antimonoton. Hierbei umfasst der Tensor-Fall den Unabhängigkeitsbegriff aus der klassischen Wahrscheinlichkeitstheorie. Ein Quanten-Levy-Prozess (QLP) ist ein Prozess mit unabhängigen, stationären Zuwächsen, dessen Verteilung durch einen Generator g festgelegt ist. Die QLP und die Generatoren in dieser Arbeit sind auf den Voiculescuschen dualen Halbgruppen definiert. Ein Generator ist ein bedingt positives, lineares Funktional mit g(1)=0. Diese Arbeit untersucht das Problem, zu einem QLP mit gegebenem Generator einen QLP auf einen Fockraum mit demselben Generator anzugeben. Zur Problem wird in drei Teilen bearbeitet. Im ersten Teil wird für jede konkrete Unabhängigkeit die Existenz eines QLP zu gegebenem Generator g nachgewiesen. Hierbei wird die Schoenberg-Korrespondenz für duale Halbgruppen verwendet und ein Quanten-Kolomogoroff Satz für QLP gezeigt. Der zweite Teil, der zugleich den Hauptteil der Arbeit darstellt, besteht aus dem Transformationssatz für duale Halbgruppen. Dieser besagt in etwa, dass ein gegebener QLP mit Generator g unter einer Transformation genannten Abbildung k zwischen zwei dualen Gruppen zu einem QLP mit Generator k•g transformiert werden kann. Dabei operieren der transformierte QLP und der ursprüngliche QLP im Wesentlichen auf denselbem Raum. Der Beweis des Transformationssatzes wird ausschließlich auf dem abstrakten, nichtkommutativen Unabhängigkeitsbegriff aufgebaut. Dabei wird der Existenzsatz aus dem ersten Teil verwendet und die punktweise Konvergenz eines infinitesimalen Faltens des gegebenen QLP ausgewertet an einem normierten Vektor bewiesen. Somit sind alle fünf konkreten Unabhängigkeitsbegriffe in einem einheitlichen Rahmen enthalten. Zu jedem konkreten nichtkommutativen Unabhängigkeitsbegriff werden im dritten Teil die besonders einfachen, additven QLP auf Fockräumen betrachtet. Hierbei ist ein additiver QLP einfach die Summe aus einem Erzeugungs-, einem Erhaltungs- und einem Vernichtungsprozess auf einem Fockraum, sowie aus einem Generatoranteil. Die Realisierung von QLP auf Fockräumen, also das oben genannte Problem, wird durch Transformieren eines passenden, additiven QLP erreicht. Insbesondere erhalten wir somit erstmals eine Realisierung von QLP auf Fockräumen mithilfe der Transformationstheorie im freien Fall. In einer Anwendung wird das nichtkommutative Analogon der Unitären Gruppe als duale Gruppe betrachtet. Im freien Fall als konkreten, nichtkommutativen Unabhängigkeitsbegriff und aufgrund der Unitarität kann hier zusätzlich bewiesen werden, dass auch auf Operator-Ebene ein infinitesimales Falten der additiven QLP in der starken Operatortopologie existiert. Weiterhin gilt im Gauß-Fall, das heißt obiger Erhaltungsprozess-Anteil verschwindet, dass sogar Normkonvergenz vorliegt.
In dieser Arbeit wird ein Verfahren zur Bestimmung von Toleranzbereichen für 1H-NMR-Spektren von Neugeborenenurinen zur Detektion von angeborenen Stoffwechselerkrankungen vorgestellt. Diese Krankheiten werden durch genetische Defekte ausgelöst, die eine schwerwiegende Funktionsstörung im Stoffwechselkreislauf verursachen. Die dadurch entstehenden Krankheitsbilder führen in der Regel zu Behinderungen und oftmals zum Tod. Eine frühe Diagnose und Behandlung können in vielen Fällen ein Überleben ohne Symptome ermöglichen. Beim derzeitigen Neugeborenenscreening werden in Deutschland zwölf der häufigsten Stoffwechselerkrankungen routinemäßig abgetestet - weit über hundert sind aktuell bekannt. Basierend auf einem Referenzdatensatz von 695 Neugeborenenurinspektren, werden in dieser Arbeit mathematische Methoden zur Bestimmung von Toleranzbereichen entwickelt, die eine ungezielte Detektion von Abweichungen ermöglichen, um schwerwiegende Krankheiten wie angeborene Stoffwechselerkrankungen frühzeitig und routinemäßig diagnostizieren zu können. Das Verfahren basiert dabei auf der robusten Ermittlung von Verteilungsfunktionen, Toleranzbereichen und Identifikation von Ausreißern für eindimensionale Stichproben von unbekannten Verteilungen. Mithilfe einer von der Box-Cox-Transformation abgeleiteten Transformationsfamilie, werden die gemessenen Kenngrößen in normalverteilte Stichproben überführt. Für die Bestimmung der optimalen Transformationsparameter wird die Teststatistik des Shapiro-Wilk-Tests auf Normalverteilung der transformierten Stichprobe verwendet. Die Betrachtung verschiedener links- und rechtsseitiger Trimmungen sichert dabei eine robuste Bestimmung, die nicht von Ausreißern innerhalb des Referenzdatensatzes beeinflusst wird. Anhand von Simulationsstudien wird die Leistung dieses Verfahrens an Stichproben mit bekannten Verteilungen ermittelt und demonstriert. Die Anwendbarkeit an abgeleiteten Kenngrößen aus den realen Urinspektren wird zunächst anhand von Metabolitenkonzentrationen gezeigt. Hierfür wurden im Rahmen dieser Arbeit Methoden zur Identifikation und Quantifikation von 22 ausgewählten Metaboliten entwickelt. Für die ungezielte Analyse werden aus den NMR-Spektren abstrakte Kenngrößen abgeleitet, welche die Protonenkonzentrationen in verschiedenen chemischen Verschiebungsbereichen zusammenfassen (sogenannte Bucketierung). Dadurch wird jedes Signal, unabhängig von Molekül oder funktioneller Gruppe, erfasst und ausgewertet. Bei der in dieser Arbeit verwendeten Strategie entstehen dadurch 500 Messwerte pro Spektrum, von denen 479 (96%) in normalverteilte Variablen überführt werden können. Für diese werden schließlich Toleranzbereiche definiert, um Messungen von weiteren Urinproben abzugleichen. Zusätzlich wird ausgehend von den transformierten Variablen eine Möglichkeit dargestellt, auch multivariate Toleranzbereiche auf Basis der Mahalanobisdistanz zu ermitteln, welche die Sensitivität des Tests auf abweichende Signale signifikant erhöht. Anhand einer Spiking-Simulationsstudie mit ca. 500.000 Spektren, bei denen die Signale von elf Verbindungen, die in Zusammenhang mit angeborenen Stoffwechselerkrankungen stehen, numerisch zu den Referenzspektren addiert werden, können Detektionsraten in Abhängigkeit der Konzentrationen dieser Verbindungen ermittelt werden.
We introduce a multi-step machine learning approach and use it to classify data from EEG-based brain computer interfaces. This approach works very well for high-dimensional EEG data. First all features are divided into subgroups and linear discriminant analysis is used to obtain a score for each subgroup. Then it is applied to subgroups of the resulting scores. This procedure is iterated until there is only one score remaining and this one is used for classification. In this way we avoid estimation of the high-dimensional covariance matrix of all features. We investigate the classifification performance with special attention to the small sample size case. For the normal model, we study the asymptotic error rate when dimension p and sample size n tend to infinity. This indicates how to defifine the sizes of subgroups at each step. In addition we present a theoretical error bound for the spatio-temporal normal model with separable covariance matrix, which results in a recommendation on how subgroups should be formed for this kind of data. Finally some techniques, for example wavelets and independent component analysis, are used to extract features of some kind of EEG-based brain computer interface data.
Independence is a basic concept of probability theory and statistics. In a lot of fields of sciences, dependency of different variables is gained lots of attention from scientists. A measure, named information dependency, is proposed to express the dependency of a group of random variables. This measure is defined as the Kullback-Leibler divergence of a joint distribution with respect to a product-marginal distribution of these random variables. In the bivariate case, this measure is known as mutual information of two random variables. Thus, the measure information dependency has a strong relationship with the Information Theory. The thesis aims to give a thorough study of the information dependency from both mathematical and practical viewpoints. Concretely, we would like to research three following problems: 1. Proving that the information dependency is a useful tool to express the dependency of a group of random variables by comparing it with other measures of dependency. 2. Studying the methods to estimate the information dependency based on the samples of a group of random variables. 3. Investigating how the Independent Component Analysis problem, an interesting problem in statistics, can be solved using information dependency.
Jump penalized L1-Regression
(2012)
Die vorgelegte Arbeit beschäftigt sich mit Kurvenschätzung in einem Regressionsmodell für eindimensionale verrauschte Daten, welche die Ausreißer enthalten können. Dabei ist die Regression Funktion, also Funktion welche a priori unbekannt ist und welche geschätzt werden soll, eine beliebige absolut-integrierbare Funktion auf dem Intervall [0, 1) und Regression Schätzer eine Stückweise-konstante Funktion auf dem Intervall [0, 1). Die von uns betrachtende Schätzer sind stückweise-konstante Funktionen, welche die L1-Version den sogenannten Potts Funktional minimieren (s. [8]). Das L1 Potts Funktional ist so gewählt, dass einerseits die Komplexität des Schätzers in Form der Anzahl ihrer Sprünge beachtet wird und anderseits die absolute Abweichungen von den Daten betrachtet werden. Die Stufen des Minimierers vom L1 Potts Funktional entsprechen den lokalen Medianen von verrauschten Daten, im Gegensatz dazu entsprechen die Stufen des Minimierers von dem klassischen Potts Funktional (L2-Fall) den lokalen Mittelwerten von den Daten. Der Vorteil der L1-Version gegenüber L2-Version des Potts Funktionals kann dadurch erklärt werden, dass die Mediane bekannterweise viel robuster gegen Ausreißer als Mittelwerte sind. In der vorgelegten Arbeit wurden die asymptotischen Eigenschaften sowohl von der L1 Potts Funktionals als auch von seinen Minimierer studiert. Unter anderem, es konnte die Konsistenz des Schätzers für den Fall, dass die Originalfunktion f selbst eine Stufenfunktion ist, gezeigt werden. Dies stellt das Hauptergebnis der Arbeit dar. Konsistenz heißt hier, dass unter bestimmten Bedingungen die Minimierer vom L1 Potts Funktional gegen die Originalfunktion f konvergieren.
The goal of this doctoral thesis is to create and to implement methods for fully automatic segmentation applications in magnetic resonance images and datasets. The work introduces into technical and physical backgrounds of magnetic resonance imaging (MRI) and summarizes essential segmentation challenges in MRI data including technical malfunctions and ill-posedness of inverse segmentation problems. Theoretical background knowledge of all the used methods that are adapted and extended to combine them for problem-specific segmentation applications are explained in more detail. The first application for the implemented solutions in this work deals with two-dimensional tissue segmentation of atherosclerotic plaques in cardiological MRI data. The main part of segmentation solutions is designed for fully automatic liver and kidney parenchyma segmentation in three-dimensional MRI datasets to ensure computer-assisted organ volumetry in epidemiological studies. The results for every application are listed, described and discussed before important conclusions are drawn. Among several applied methods, the level set method is the main focus of this work and is used as central segmentation concept in the most applications. Thus, its possibilities and limitations for MRI data segmentation are analyzed. The level set method is extended by several new ideas to overcome possible limitations and it is combined as important part of modularized frameworks. Additionally, a new approach for probability map generation is presented in this thesis, which reduces data dimensionality of multiple MR-weightings and incorporates organ position probabilities in a probabilistic framework. It is shown, that essential organ features (i.e. MR-intensity distributions, locations) can be well represented in the calculated probability maps. Since MRI data are produced by using multiple MR- weightings, the used dimensionality reduction technique is very helpful to generate a single probability map, which can be used for further segmentation steps in a modularized framework.
Interactive Visualization for the Exploration of Aligned Biological Networks and Their Evolution
(2011)
Network Visualization is a widely used tool in biology. The biological networks, as protein-interaction-networks are important for many aspects in life. Today biologists use the comparison of networks of different species (network alignment) to understand the networks in more detail and to understand the underlying evolution. The goal of this work is to develop a visualization software that is able to visualize network alignments and also their evolution. The presented software is the first software for such visualization tasks. It uses 3D graphics and also animations for the dynamic visualization of evolution. This work consists of a review of the Related Work, a chapter about our Graph-based Approach for Interactive Visualization of Evolving Network Alignments, an explanation of the Graph Layout Algorithm and some hints for the Software System.
Die vorliegende Arbeit beschäftigt sich mit der numerischen Lösung von Optimalsteuerungsproblemen. Dazu wird das Maximumprinzip verwendet, dessen Anwendung auf ein Mehrpunktrandwertproblem führt. Die Aufgabe bestand nun darin, ein Programmpaket zu entwickeln, mit dem solche Mehrpunktrandwertprobleme mit der Mehrzielmethode numerisch gelöst werden können. Dabei wurden verschiedene Anforderungen an das zu entwickelnde Programm gestellt, die bereits existierende Programmpakete nicht oder nur eingeschränkt erfüllen. Die Bedienung soll durch die Verwendung einer grafischen Oberfläche intuitiver und komfortabler gestaltet werden. Ein weiteres Ziel besteht in der Problemunabhängigkeit des Quellcodes, sodass der Quellcode unangetastet bleiben kann. Außerdem sollen für die Benutzung des Programms keine Programmierkenntnisse notwendig sein. Der Funktionsumfang soll im Vergleich zu bestehenden Implementierungen erweitert werden, um die Möglichkeiten der Mehrzielmethode besser ausnutzen sowie die Methoden an das jeweilige zu lösende Problem anpassen zu können. Zunächst werden theoretische Grundlagen der optimalen Steuerung und des Maximumprinzips beschrieben. Die Mehrzielmethode wird vorgestellt und erweitert, sodass mit dieser auch Mehrpunktrandwertprobleme gelöst werden können. Ferner wird auf die Umsetzung der weiteren verwendeten mathematischen Methoden eingegangen. Dazu gehören das Newtonverfahren inklusive Dämpfung und Broydenupdate, verschiedenene Anfangswertproblemlöser (Dormand-Prince- und Rosenbrock-Typ-Verfahren) und die Singulärwertzerlegung, mit der die linearen Gleichungsssysteme gelöst werden. Außerdem werden die Komponenten und Funktionen des Programmpakets beschrieben, beispielsweise die Entwicklung der grafischen Oberfläche. Um das Einlesen der Daten eines Optimalsteuerungsproblems aus der grafischen Oberfläche in das Programm zu ermöglichen, wurde ein Parser verwendet. Die Software enthält Funktionen zur Erstellung von Plots und dem Export von Problemdaten in ein PDF-Dokument. Des Weiteren wird beschrieben, inwieweit die implementierten Verfahren an die Anforderungen eines spezifischen Optimalsteuerungsproblems angepasst werden können. Abschließend werden vier in ihrer Gestalt und ihrem Schwierigkeitsgrad sehr verschiedene Optimalsteuerungsprobleme beispielhaft gelöst. Dazu gehören beispielsweise das als Optimalsteuerungsproblem formulierte Brachistochrone- sowie das Min-Energy-Problem. Anhand der Lösung des Rayleigh-Problems wird gezeigt, wie man die zur Verfügung gestellten Optionen des Programmpakets sinnvoll nutzen kann, um eine Lösung zu bestimmen, die ein aussichtsreicher Kandidat für eine optimale Lösung ist. Abschließend wird ein Wiedereintrittsproblem einer Raumkapsel in die Erdumlaufbahn betrachtet, welches eine besondere Herausforderung darstellt, da das Differenzialgleichungssystem sehr empfindlich reagiert und Lösungen nur für einen kleinen Bereich von Startwerten existieren.
The geometric arena here is a smooth manifold of dimension n equipped with a Riemannian or pseudo-Riemannian metric and an affine connection. Field theories following from a variational principle are considered on this basis. In this context, all invariants which are quadratic in the curvature are determined. The work derives several manifestly covariant formulas for the Euler-Lagrange derivatives or the field equations. Some of these field theories can be interpreted as gravitational theories alternatively to Einstein´s general relativity theory. The work also touches the difficult problem to define and to calculate energy and momentum of a gravitational field.
Maligne Erkrankungen zeigen oft charakteristische genetische Veränderungen. Das Auffinden derartiger Veränderungen wurde in den letzten Jahren durch verfeinerte molekulare Techniken erleichtert. Viele genetische Ereignisse in den maligne transformierten Zellen sind jedoch noch ungeklärt. Die präzise Bestimmung der Bruchpunktregionen chromosomaler Veränderungen bei T-Zell akuten lymphatischen Leukämien ist Inhalt dieser Arbeit. Hierzu wurde die „Fine Tiling-Comparative Genomhybridisierung“ (FT-CGH) mit der „Ligation mediated-PCR“ (LM-PCR) kombiniert. Diese Methoden wurden zunächst an Zelllinien etabliert und anschließend in verschiedenen Leukämieproben eingesetzt. Chromosomale Aberrationen gehen häufig mit Verlust oder Gewinn von genetischem Material einher. Diese unbalancierten Anomalien lassen sich durch die Comparative Genomhybridisierung (CGH) ermitteln. Dieses Verfahren ermöglicht Differenzen der DNA-Menge einer zu untersuchenden Probe bezogen auf eine interne Kontrollprobe zu detektieren. Bei der Fine Tiling-CGH werden gezielt chromosomale Abschnitte hochauflösend auf eventuelle Abweichungen des DNA-Gehaltes analysiert. Anschließend werden die detektierten Bruchpunktregionen der DNA Schwankungen mittels der LM-PCR untersucht. Ein Abgleich mit einer internen Kontrollzelllinie HEK 293-T lässt atypische PCR-Fragmente bei der untersuchten Probe aufspüren. Der anschließende Sequenzabgleich unter der Verwendung des BLASTn Suchprogramms (National Center for Biotechnology Information) führte in den untersuchten Zelllinien, wie auch in den T-Zell akuten lymphatischen Leukämieproben zur Identifizierung verschiedener genomischer Veränderungen. Neben einfachen Deletionen wurden auch bisher ungeklärte komplexere chromosomale Translokationen nachgewiesen. So konnte unter anderem bei einer lymphoblastischen T-Zell-Leukämie die Translokation t(12;14)(q23;q11.2) auf genomischer Ebene geklärt werden. Hierbei fand im Abschnitt 14q11 innerhalb des TRA/D Locus eine Deletion von 89 Kilobasen statt. Die Bruchenden wurden mit der Sequenz des open reading frames C12orf42, welches im 12q23 Chromosomenabschnitt lokalisiert ist, zusammengelagert. Bei dieser chromosomalen Aberration wurde die C12orf42 Sequenz zerstört und 1,3 Kilobasen deletiert. Des Weiteren konnte bei einer akuten lymphoblastischen T-Zell-Leukämie die Inversion inv(14)(q11q32) mit involvierten TRA/D und IGH Locus auf Sequenzebene geklärt werden. Der Bruch des 14q11 Bereiches fand zwischen dem Genabschnitt der konstanten Region (TRAC) des TRA/D Locus und dem DAD1 (defender against cell death 1) Gens statt, wobei im beteiligten genetischen Abschnitt keine Rekombinasesignalsequenz (RSS) zu finden ist. Dieses belegt, dass fehlerhafte Umlagerungen innerhalb des Genoms nicht ausschließlich auf die Rekombinase zurückzuführen sind. Die vorliegende Arbeit zeigt, dass die Kombination aus FT-CGH und LM-PCR eine präzise Bruchpunktanalyse unbekannter chromosomaler Aberrationen, welche mit Imbalancen einhergehen, ermöglicht. Diese genaue Analyse dient der Identifizierung von Genen, welche direkt und indirekt durch diese genomischen Umlagerungen betroffen sind. Das Wissen über diese Veränderungen kann für das Verständnis der Pathogenese, für diagnostische Zwecke und zum Nachweis der minimalen Resterkrankung eingesetzt werden. Eine Klärung beteiligter Gene und Signalwege wird es erlauben, zielgerichtete und individualisierte Therapiestrategien zu entwickeln.
Background: Computational tools for the investigation of transcriptional regulation, in particular of transcription factor binding sites (TFBS), in evolutionary context are developed. Existing sequence based tools prediction such binding sites do not consider their actual functionality, although it is known that besides the base sequence many other aspects are relevant for binding and for the effects of that binding. In particular in Eukaryotes a perfectly matching sequence motif is neither necessary nor sufficient for a functional transcription factor binding site. Published work in the field of transcriptional regulation frequently focus on the prediction of putative transcription factor binding sites based on sequence similarity to known binding sites. Furthermore, among the related software, only a small number implements visualization of the evolution of transcription factor binding sites or the integration of other regulation related data. The interface of many tools is made for computer scientists, although the actual interpretation of their outcome needs profound biological background knowledge. Results and Discussion: The tool presented in this thesis, "ReXSpecies" is a web application. Therefore, it is ready to use for the end user without installation providing a graphical user interface. Besides extensive automation of analyses of transcriptional regulation (the only necessary input are the genomic coordinates of a regulatory region), new techniques to visualize the evolution of transcription factor binding sites were developed. Furthermore, an interface to genome browsers was implemented to enable scientists to comprehensively analyze their regulatory regions with respect to other regulation relevant data. ReXSpecies contains a novel algorithm that searches for evolutionary conserved patterns of transcription factor binding sites, which could imply functionality. Such patterns were verified using some known transcription factor binding sites of genes involved in pluripotency. In the appendix, efficiency and correctness of the used algorithm are discussed. Furthermore, a novel algorithm to color phylogenetic trees intuitively is presented. In the thesis, new possibilities to render evolutionary conserved sets of transcription factor binding sites are developed. The thesis also discusses the evolutionary conservation of regulation and its context dependency. An important source of errors in the analysis of regulatory regions using comparative genetics is probably to find and to align homologous regulatory regions. Some alternatives to using sequence similarity alone are discussed. Outlook: Other possibilities to find (functional) homologous regulatory regions (besides whole-genome-alignments currently used) are BLAST searches, local alignments, homology databases and alignment-free approaches. Using one ore more of these alternatives could reduce the number of artifacts by reduction of the number of regions that are erroneously declared homologous. To achieve more robust predictions of transcription, the author suggests to use other regulation related data besides sequence data only. Therefore, the use and extension of existing tools, in particular of systems biology, is proposed.