Übertragung auf reale Layouts: Ein tiefenbewusstes Framework für die Szeneanpassung

Szene-Segmentierung durch unsupervisiertes Domänen-Adaptation (UDA) ermöglicht die Übertragung von Wissen, das aus Quellensynthesedaten erworben wurde, auf realweltliche Zieldaten. Dies reduziert den Bedarf an manuellen Pixel-Level-Annotierungen im Zielbereich erheblich. Um die Lernung invarianter Merkmale zwischen den Bereichen zu fördern, mischen bestehende Methoden in der Regel Daten aus dem Quell- und dem Zielbereich, indem sie einfach Pixel kopieren und einfügen. Solche einfache Methoden sind in der Regel suboptimal, da sie nicht berücksichtigen, wie gut die gemischten Layouts realweltlichen Szenarien entsprechen. Realweltliche Szenarien haben ein inhärentes Layout. Wir beobachten, dass semantische Kategorien wie Gehwege, Gebäude und Himmel relativ konsistente Tiefenverteilungen aufweisen und in einer Tiefenkarte klar voneinander abgrenzbar sind. Auf Basis dieser Beobachtung schlagen wir einen tiefenbewussten Rahmen vor, um die Tiefenschätzung explizit zur Mischung der Kategorien zu nutzen und die beiden ergänzenden Aufgaben – Segmentierung und Tiefenlernen – in einem End-to-End-Verfahren zu unterstützen. Insbesondere enthält der Rahmen einen tiefegeleiteten kontextuellen Filter (DCF) für die Datenverstärkung sowie einen cross-task Encoder für das kontextuelle Lernen. Der DCF simuliert realweltliche Layouts, während der cross-task Encoder die komplementären Merkmale zwischen den beiden Aufgaben weiter adaptiv fusioniert. Darüber hinaus ist zu beachten, dass mehrere öffentliche Datensätze keine Tiefenanotierungen bereitstellen. Daher nutzen wir ein vorab trainiertes Netzwerk zur Tiefenschätzung, um Pseudo-Tiefendaten zu generieren. Ausführliche Experimente zeigen, dass unsere vorgeschlagenen Methoden – selbst mit Pseudo-Tiefe – wettbewerbsfähige Leistungen auf zwei weit verbreiteten Benchmarks erzielen: 77,7 mIoU bei der Übertragung von GTA nach Cityscapes und 69,3 mIoU bei der Übertragung von Synthia nach Cityscapes.