Selbstüberwachte monokulare Tiefen-Hinweise

Monokulare Tiefenschätzer können mit verschiedenen Formen von Selbstüberwachung aus binokularen Stereo-Daten trainiert werden, um die Notwendigkeit hochwertiger Laserscans oder anderer Ground-Truth-Daten zu umgehen. Der Nachteil besteht jedoch darin, dass die bei der selbstüberwachten Lernmethode typischerweise verwendeten photometrischen Reprojektionsverluste mehrere lokale Minima aufweisen. Diese plausibel erscheinenden Alternativen zum Ground Truth können den Lernprozess eines Regressionsnetzwerks einschränken und zu Tiefenkarten von begrenzter Qualität führen. Als ein prominentes Beispiel werden Tiefenunstetigkeiten um dünne Strukturen von derzeitigen State-of-the-Art-Methoden oft falsch geschätzt.In dieser Arbeit untersuchen wir das Problem mehrdeutiger Reprojektionen bei der Tiefenschätzung auf Basis stereo-basierter Selbstüberwachung und stellen sogenannte Depth Hints vor, um deren negativen Einfluss zu verringern. Depth Hints sind ergänzende Tiefenvorschläge, die mit einfachen, kommerziell erhältlichen Stereo-Algorithmen gewonnen werden. Diese Hinweise erweitern eine bestehende photometrische Verlustfunktion und dienen dazu, ein Netzwerk zu leiten, bessere Gewichte zu lernen. Sie erfordern keine zusätzlichen Daten und werden nur gelegentlich als korrekt angenommen. Wir zeigen, dass die Verwendung unserer Depth Hints eine erhebliche Verbesserung bei der Trainingsperformance mehrerer führender selbstüberwachter Stereo-Modelle bewirkt – nicht nur bei unserem eigenen Modell. Zudem erzielen wir mit der Kombination dieser Hinweise mit anderen bewährten Praktiken führende Ergebnisse auf dem KITTI-Benchmark.