Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 1 of 5
Back to Result List

Bitte verwenden Sie diesen Link, wenn Sie dieses Dokument zitieren oder verlinken wollen: https://nbn-resolving.org/urn:nbn:de:gbv:9-opus-133207

Challenges and New Perspectives in Intrinsic Image Decomposition

  • The human visual system is able to estimate distances, perceive fine details of a scene, and distinguish the reflectance of objects, even under varying illumination conditions. In contrast, machines vision systems face significant challenges in performing such tasks due to the complexity and ambiguity of scene interpretation. One way to enable artificial systems to perform these tasks is to utilize a computational approach called intrinsic image decomposition. This approach allows us to decompose an image into its low-level features such as reflectance, shading, illumination, surface normals, and depth. These intrinsics can improve the efficiency of tasks such as object classification, exposure correction, image segmentation, and object recoloring. While intrinsic image decomposition offers several benefits, it also holds many challenges. The main challenge emerges from the nature of the problem itself. Intrinsic image decomposition is a severely under-constrained problem as it typically involves extracting low-level features from a single input image. This input image might be an RGB image or another intrinsic representation, from which further low-level features are computed. Another challenge in the field is the shortcomings of evaluation benchmarks. Existing datasets have limitations such as limited samples and/or intrinsics, and including simple scenes. A further challenge is the lack of error metrics demonstrating the actual performance of algorithms. The existing evaluation strategies in this field have shortcomings such as a bias toward favoring cases where large regions are decomposed correctly. This thesis focuses on the challenges in intrinsic image decomposition by offering simple yet effective solutions and introducing new perspectives. Specifically, two datasets are created using computer graphics, ensuring accurate ground truth data while avoiding subjectivity and eliminating biases caused by camera specifications. The first dataset, namely IID-NORD, is a large-scale dataset including scenes and their ground truth reflectance, shading, surface normal vectors, depth map, and light direction vectors. The second dataset is called CC-NORD which addresses the illumination intrinsic image of the scenes. Furthermore, two error metrics, inspired by observations on the human visual system, are proposed for evaluating the reflectance and shading components. These metrics rely on operations in scale-space, and on the structural similarity index (SSIM), visual information fidelity (VIF), the feature similarity index (FSIM), and the $\Delta E$ (CIEDE$2000$) which are well-known evaluation methods in the field of image processing. Additionally, a learning-free algorithm utilizing scale-space computations is developed to calculate the surface normals from depth maps. Also, a traditional algorithm relying on the Retinex theory, scale-space operations, and superpixel segmentation is designed to estimate the reflectance and shading from input scenes. According to the experimental results both algorithms show competitive performance.
  • Das menschliche visuelle System ist in der Lage, selbst unter wechselnden Beleuchtungsbedingungen Entfernungen einzuschätzen, feine Details einer Szene wahrzunehmen und die Reflektanz von Objekten zu unterscheiden. Im Gegensatz dazu stehen maschinelle Bildverarbeitungssysteme vor erheblichen Herausforderungen bei der Ausführung solcher Aufgaben, da die Interpretation von Szenen komplex und mehrdeutig ist. Eine Möglichkeit, künstliche Systeme in die Lage zu versetzen, solche Aufgaben zu bewältigen, ist die Nutzung eines rechnerischen Ansatzes namens intrinsische Bildzerlegung. Dieser Ansatz ermöglicht es, ein Bild in seine Bestandteile wie Reflektanz, Schattierung, Beleuchtung, Oberflächennormalen und Tiefe zu zerlegen. Liegen die intrinsischen Bestandteile vor, kann die Effizienz von Verfahren wie z.B. Objektklassifikation, Belichtungskorrektur, Bildsegmentierung und Objektumfärbung verbessert werden. Obwohl die intrinsische Bildzerlegung zahlreiche Vorteile bietet, birgt sie auch viele Herausforderungen. Die Hauptschwierigkeit ergibt sich aus der Natur des Problems selbst. Die intrinsische Bildzerlegung ist ein stark unterbestimmtes Problem, da sie typischerweise darauf abzielt, niedrigstufige Merkmale aus einem einzigen Eingabebild zu extrahieren. Das Eingabebild kann ein RGB-Bild oder eine andere intrinsische Darstellung sein, aus der weitere niedrigstufige Merkmale berechnet werden. Eine weitere Herausforderung in diesem Bereich sind die Unzulänglichkeiten bestehender Benchmarks. Vorhandene Datensätze weisen Einschränkungen wie begrenzte Anzahl von Szenen und/oder intrinsische Eigenschaften sowie einfache Szenen auf. Ein weiteres Problem ist das Fehlen von Fehlermetriken, die die tatsächliche Leistungsfähigkeit von Algorithmen demonstrieren. Bestehende Bewertungsstrategien in diesem Bereich haben Schwächen z.B. in Fällen, in denen große Regionen korrekt zerlegt werden. Diese Dissertation konzentriert sich auf die Herausforderungen der intrinsischen Bildzerlegung, indem einfache, aber effektive Lösungen angeboten und neue Perspektiven eingeführt werden. Insbesondere werden zwei Datensätze unter Verwendung von Computergrafik erstellt, um genaue Ground-Truth-Daten zu gewährleisten und Subjektivität sowie Verzerrungen durch Kameraspezifikationen zu vermeiden. Der erste Datensatz, namens IID-NORD, ist ein groß angelegter Datensatz, der Szenen sowie deren Ground-Truth Reflektanz, Schattierung, Oberflächennormalenvektoren, Tiefenkarte und Lichtvektoren enthält. Der zweite Datensatz, CC-NORD, befasst sich mit dem Beleuchtungs-Intrinsic-Bild der Szenen. Darüber hinaus werden zwei Fehlermetriken vorgeschlagen, die von Beobachtungen des menschlichen visuellen Systems inspiriert sind, um die Reflektanzs- und Schattierungskomponenten zu bewerten. Diese Metriken basieren auf Operationen im Skalenraum sowie auf dem strukturellen Ähnlichkeitsindex (SSIM), der visuellen Informationsfidelity (VIF), dem Merkmalsähnlichkeitsindex (FSIM) und dem $\Delta E$ (CIEDE$2000$), die in der Bildverarbeitung bekannte Bewertungsmethoden sind. Zusätzlich wird ein algorithmischer Ansatz entwickelt, der ohne maschinelles Lernen auskommt und auf Skalenraum-Berechnungen basiert, um die Oberflächennormalen aus Tiefenkarten zu berechnen. Außerdem wird ein traditioneller Algorithmus entworfen, der auf der Retinex-Theorie, Skalenraum-Operationen und Superpixel-Segmentierung basiert, um die Reflektanz und Schattierung aus Eingabeszenen zu schätzen. Laut experimentellen Ergebnissen zeigen beide Algorithmen eine wettbewerbsfähige Leistung.

Download full text files

Export metadata

Additional Services

Search Google Scholar
Metadaten
Author: Diclehan UlucanORCiD
URN:urn:nbn:de:gbv:9-opus-133207
Title Additional (German):Herausforderungen und neue Perspektiven bei der intrinsischen Bildzerlegung
Referee:Prof. Dr. Marc Ebner, Prof. Dr. Simone Bianco, Prof. Dr. Claudio Cusano
Advisor:Prof. Dr. Marc Ebner
Document Type:Doctoral Thesis
Language:English
Year of Completion:2025
Date of first Publication:2025/05/27
Granting Institution:Universität Greifswald, Mathematisch-Naturwissenschaftliche Fakultät
Date of final exam:2025/05/21
Release Date:2025/05/27
Tag:Image Formation
GND Keyword:Image forming
Page Number:121
Faculties:Mathematisch-Naturwissenschaftliche Fakultät / Institut für Mathematik und Informatik
DDC class:000 Informatik, Informationswissenschaft, allgemeine Werke / 000 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik