Einblick in die selbstüberwachte monokulare Tiefenschätzung

Die Erhebung von tiefen Ground-Truth-Daten pro Pixel ist skalierbar schwer. Um diese Einschränkung zu überwinden, hat sich das selbstüberwachte Lernen als vielversprechende Alternative für die Schulung von Modellen zur monokularen Tiefenschätzung etabliert. In diesem Artikel präsentieren wir eine Reihe von Verbesserungen, die gemeinsam sowohl quantitativ als auch qualitativ verbesserte Tiefenkarten im Vergleich zu konkurrierenden selbstüberwachten Methoden erzielen. Forschung im Bereich des selbstüberwachten monokularen Trainings untersucht gewöhnlich zunehmend komplexere Architekturen, Verlustfunktionen und Bildentstehungsmodelle, die alle kürzlich dazu beigetragen haben, die Lücke zu vollständig überwachten Methoden zu schließen. Wir zeigen, dass ein überraschend einfaches Modell sowie entsprechende Designentscheidungen zu überlegenen Vorhersagen führen. Insbesondere schlagen wir vor: (i) einen minimalen Reprojektionsverlust, der robust gegenüber Verschattungen ist, (ii) eine vollauflösende, mehrskalige Abtastmethode, die visuelle Artefakte reduziert, und (iii) einen automatischen Maskierungsverlust, um Trainingspixel zu ignorieren, die den Annahmen zur Kamerabewegung widersprechen. Wir demonstrieren die Wirksamkeit jedes einzelnen Komponenten isoliert und erzielen hochwertige, state-of-the-art-Ergebnisse auf dem KITTI-Benchmark.