HyperAIHyperAI
vor 3 Monaten

Multimodale Skalenkonsistenz und -Awareness für monokulare selbstüberwachte Tiefenschätzung

Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz
Multimodale Skalenkonsistenz und -Awareness für monokulare selbstüberwachte Tiefenschätzung
Abstract

Dichte Tiefenschätzung ist für die Szenenverstehens in autonomen Fahrzeugen von entscheidender Bedeutung. Allerdings leiden aktuelle selbstüberwachte Ansätze auf monokularen Videos über längere Sequenzen hinweg an Skaleninkonsistenzen. Um dieses Problem anzugehen, schlagen wir eine dynamisch gewichtete GPS-zu-Skala (g2s)-Verlustfunktion vor, die die auf Erscheinungsbild basierenden Verluste ergänzt und dabei Daten aus den allgegenwärtigen globalen Positionsbestimmungssystemen (GPS) nutzt. Wir betonen, dass das GPS lediglich während des multimodalen Trainings benötigt wird und nicht zur Inferenzzeit. Die relative Distanz zwischen Frames, die über das GPS erfasst wird, liefert ein von der Kameraeinrichtung und der Szenenverteilung unabhängiges Skalensignal, was zu reichhaltigeren, besser lernbaren Merkmalsdarstellungen führt. Durch umfassende Evaluierung auf mehreren Datensätzen zeigen wir, dass die Tiefenschätzung während der Inferenz skalenkonsistent und skalenbewusst ist, wodurch die Leistung auch dann verbessert wird, wenn mit geringfrequenten GPS-Daten trainiert wird.