vor 2 Monaten

Erforschung der selbstüberwachten monoaularen Tiefenschätzung

Clément Godard; Oisin Mac Aodha; Michael Firman; Gabriel Brostow

Abstract

Die Erhebung von per-Pixel-Grundwahrheits-Tiefendaten ist in großem Umfang herausfordernd. Um diese Einschränkung zu überwinden, hat sich das selbstüberwachte Lernen als vielversprechende Alternative zur Ausbildung von Modellen für die monokulare Tiefenschätzung etabliert. In dieser Arbeit schlagen wir eine Reihe von Verbesserungen vor, die zusammen sowohl quantitative als auch qualitative Verbesserungen der Tiefenkarten gegenüber konkurrierenden selbstüberwachten Methoden erzielen.Forschungen zum selbstüberwachten monokularen Training untersuchen in der Regel zunehmend komplexe Architekturen, Verlustfunktionen und Bildentstehungsmodelle, die kürzlich geholfen haben, den Abstand zu vollständig überwachten Methoden zu verringern. Wir zeigen, dass ein überraschend einfaches Modell und zugehörige Designentscheidungen zu überlegenen Vorhersagen führen. Insbesondere schlagen wir vor: (i) einen minimalen Reprojektionsverlust, der darauf ausgelegt ist, Okklusionen robust zu behandeln; (ii) eine Hochauflösende Multiskalen-Abtastmethode, die visuelle Artefakte reduziert; und (iii) einen automatischen Maskierungsverlust, um Trainingspixel zu ignorieren, die die Annahmen über die Kamerabewegung verletzen. Wir demonstrieren die Effektivität jeder Komponente einzeln und zeigen hochwertige, standesgemäße Ergebnisse am KITTI-Benchmark.