Geometriebewusste symmetrische Domänenanpassung für die monokulare Tiefenschätzung

Die überwachte Tiefenschätzung hat aufgrund fortschrittlicher tiefer Netzarchitekturen eine hohe Genauigkeit erreicht. Da die Ground-Truth-Tiefenlabels schwer zu erlangen sind, versuchen aktuelle Methoden, Tiefenschätznetzwerke durch die Nutzung unüberwachter Hinweise auf unüberwachte Weise zu trainieren, was zwar effektiv ist, aber weniger zuverlässig als echte Labels. Ein sich herausbildender Ansatz zur Lösung dieses Dilemmas besteht darin, Wissen von synthetischen Bildern mit Ground-Truth-Tiefen durch Domänenadaptierungsverfahren zu transferieren. Allerdings ignorieren diese Ansätze die spezifische geometrische Struktur der natürlichen Bilder im Zielbereich (d.h., reale Daten), die für eine hochwertige Tiefenschätzung von großer Bedeutung ist. Angeregt durch diese Beobachtung schlagen wir ein geometrie-bewusstes symmetrisches Domänenadaptierungsframework (GASDA) vor, um sowohl die Labels in den synthetischen Daten als auch die Epipolargeometrie in den realen Daten gemeinsam zu nutzen. Darüber hinaus erreicht unser Modell durch das symmetrische Training von zwei Bildstilübersetzern und Tiefenschätzern in einem end-to-end-Netzwerk eine bessere Bildstilübertragung und generiert hochwertige Tiefenkarten. Die experimentellen Ergebnisse zeigen die Effektivität unserer vorgeschlagenen Methode sowie vergleichbare Leistungen mit dem aktuellen Stand der Technik. Der Code wird öffentlich verfügbar sein unter: https://github.com/sshan-zhao/GASDA.