CAPE: Camera View Position Embedding für die Multi-View 3D Objektdetektion

In diesem Paper behandeln wir das Problem der Detektion von 3D-Objekten aus Multi-View-Bildern. Aktuelle abfragende Methoden stützen sich auf globale 3D-Positions-Embeddings (PE), um die geometrische Korrespondenz zwischen Bildern und dem 3D-Raum zu lernen. Wir behaupten, dass die direkte Interaktion von 2D-Bildmerkmalen mit globalen 3D-PE die Lernbarkeit der Ansichtstransformation erschweren kann, bedingt durch die Variation der Kamerakalibrierungsparameter (Extrinsika). Daher stellen wir eine neuartige Methode vor, die auf einer CAmera view Position Embedding (CAPE) basiert. Statt des globalen Koordinatensystems nutzen wir ein lokales Kamerablickpunkt-Koordinatensystem zur Bildung der 3D-Positions-Embeddings, wodurch die 3D-Positionsembeddings unabhängig von den Kamerakalibrierungsparametern sind. Zudem erweitern wir CAPE um eine zeitliche Modellierung, indem wir die Objektabfragen vorheriger Frames ausnutzen und die Eigenbewegung (ego-motion) kodieren, um die 3D-Objektdetektion zu verbessern. CAPE erreicht eine state-of-the-art-Leistung (61,0 % NDS und 52,5 % mAP) unter allen LiDAR-freien Methoden auf dem nuScenes-Datensatz. Der Quellcode und die Modelle sind verfügbar unter \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} und \href{https://github.com/kaixinbear/CAPE}{PyTorch-Implementierung}.