Exploration der Zwisdarstellung für die Einstellige Fahrzeugpose-Schätzung

Wir präsentieren ein neues lernbasiertes Framework zur Wiederherstellung der Fahrzeugpose in SO(3) aus einem einzelnen RGB-Bild. Im Gegensatz zu früheren Arbeiten, die von lokalem Erscheinungsbild auf Beobachtungswinkel abbilden, untersuchen wir einen fortschreitenden Ansatz durch die Extraktion sinnvoller Zwischengeometrischer Darstellungen (Intermediate Geometrical Representations, IGRs), um die egozentrische Fahrzeugausrichtung zu schätzen. Dieser Ansatz zeichnet sich durch ein tiefes Modell aus, das wahrgenommene Intensitäten in IGRs transformiert, die dann auf eine 3D-Darstellung abgebildet werden, die die Objektausrichtung im Kamerasystem kodiert. Kernprobleme sind die Auswahl geeigneter IGRs und deren effektiveres Lernen. Die erste Frage beantworten wir durch den Entwurf von IGRs basierend auf einem interpolierten Quader, der sich leicht aus primitiven 3D-Annotationen ableiten lässt. Die zweite Frage motiviert uns, geometrisches Wissen mit einer neuen Verlustfunktion zu integrieren, die auf einem projektiven Invarianten basiert. Diese Verlustfunktion ermöglicht es, während des Trainings unlabeled Daten zu verwenden, um das Lernen von Darstellungen zu verbessern. Ohne zusätzliche Labels übertrifft unser System frühere monokulare RGB-basierte Methoden für gemeinsame Fahrzeugerkennung und Pose-Schätzung im KITTI-Benchmark und erreicht sogar Leistungen vergleichbar mit stereoskopischen Methoden. Der Code und vorab trainierte Modelle sind unter dieser HTTPS-URL verfügbar.