HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Skalenkonsistenz und -Awareness für monokulare selbstüberwachte Tiefenschätzung

Hemang Chawla Arnav Varma Elahe Arani Bahram Zonooz

Zusammenfassung

Dichte Tiefenschätzung ist für die Szenenverstehens in autonomen Fahrzeugen von entscheidender Bedeutung. Allerdings leiden aktuelle selbstüberwachte Ansätze auf monokularen Videos über längere Sequenzen hinweg an Skaleninkonsistenzen. Um dieses Problem anzugehen, schlagen wir eine dynamisch gewichtete GPS-zu-Skala (g2s)-Verlustfunktion vor, die die auf Erscheinungsbild basierenden Verluste ergänzt und dabei Daten aus den allgegenwärtigen globalen Positionsbestimmungssystemen (GPS) nutzt. Wir betonen, dass das GPS lediglich während des multimodalen Trainings benötigt wird und nicht zur Inferenzzeit. Die relative Distanz zwischen Frames, die über das GPS erfasst wird, liefert ein von der Kameraeinrichtung und der Szenenverteilung unabhängiges Skalensignal, was zu reichhaltigeren, besser lernbaren Merkmalsdarstellungen führt. Durch umfassende Evaluierung auf mehreren Datensätzen zeigen wir, dass die Tiefenschätzung während der Inferenz skalenkonsistent und skalenbewusst ist, wodurch die Leistung auch dann verbessert wird, wenn mit geringfrequenten GPS-Daten trainiert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp