SPAN: Raumliche Projektionsausrichtung für die monokulare 3D-Objekterkennung
Yifan Wang Yian Zhao Fanqi Pu Xiaochen Yang Yang Tang Xi Chen Wenming Yang

Abstract
Bekannte monokulare 3D-Detektoren beherrschen die stark ausgeprägte nichtlineare Regression von 3D-Bounding-Boxes typischerweise durch ein entkoppeltes Vorhersageparadigma, bei dem mehrere Zweige getrennt zur Schätzung von geometrischem Zentrum, Tiefe, Abmessungen und Rotationswinkel eingesetzt werden. Obwohl diese Entkoppelungsstrategie den Lernprozess vereinfacht, ignoriert sie inhärent die geometrischen kollaborativen Einschränkungen zwischen den verschiedenen Attributen, was zu einem Fehlen eines geometrischen Konsistenz-Priors führt und letztlich zu suboptimaler Leistung beiträgt. Um dieses Problem zu lösen, stellen wir ein neuartiges Spatial-Projection Alignment (SPAN) mit zwei zentralen Komponenten vor: (i) Spatial Point Alignment setzt eine explizite globale räumliche Einschränkung zwischen der vorhergesagten und der ground-truth 3D-Bounding-Box durch, wodurch räumliche Drift, verursacht durch die entkoppelte Attributregression, korrigiert wird. (ii) 3D-2D Projection Alignment stellt sicher, dass die projizierte 3D-Box eng innerhalb der entsprechenden 2D-Detektions-Bounding-Box in der Bildebene ausgerichtet ist und somit die Projektionsmisalignment, die in früheren Arbeiten übersehen wurde, verringert wird. Um die Trainingsstabilität zu gewährleisten, führen wir zudem eine Hierarchische Task-Lernstrategie ein, die die räumlich-projektive Ausrichtung schrittweise integriert, sobald die Vorhersagen der 3D-Attribute sich verfeinern, wodurch eine frühe Fehlerpropagation zwischen den Attributen verhindert wird. Ausführliche Experimente zeigen, dass die vorgeschlagene Methode problemlos in beliebige etablierte monokulare 3D-Detektoren integriert werden kann und signifikante Leistungssteigerungen erzielt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.