SwinMTL: Eine geteilte Architektur für gleichzeitige Tiefenschätzung und semantische Segmentierung aus monokularen Kamerabildern

Diese Forschungsarbeit stellt ein innovatives Mehrfach-Aufgaben-Lernframework vor, das es ermöglicht, Tiefenschätzung und semantische Segmentierung gleichzeitig mit einer einzelnen Kamera durchzuführen. Der vorgeschlagene Ansatz basiert auf einer geteilten Encoder-Decoder-Architektur, die verschiedene Techniken integriert, um die Genauigkeit der Tiefenschätzung und der semantischen Segmentierung zu verbessern, ohne die rechnerische Effizienz zu beeinträchtigen. Zudem enthält die Arbeit eine Komponente des adversariellen Trainings, bei der ein Wasserstein-GAN-Framework mit einem Critic-Netzwerk eingesetzt wird, um die Vorhersagen des Modells zu verfeinern. Das Framework wurde gründlich an zwei Datensätzen evaluiert – dem outdoor Cityscapes-Datensatz und dem indoor NYU Depth V2-Datensatz – und übertrifft bestehende state-of-the-art-Methoden sowohl in den Segmentierungs- als auch in den Tiefenschätz-Aufgaben. Wir haben zudem Ablation-Studien durchgeführt, um die Beiträge verschiedener Komponenten zu analysieren, darunter Pre-Training-Strategien, die Einbeziehung von Critics (Kritikernetzwerken), die Verwendung logarithmischer Tiefenskalierung und fortschrittliche Bildverstärkungen (advanced image augmentations), um ein tieferes Verständnis des vorgeschlagenen Frameworks zu gewährleisten. Der dazugehörige Quellcode ist unter \url{https://github.com/PardisTaghavi/SwinMTL} verfügbar.