HyperAIHyperAI

Command Palette

Search for a command to run...

CAPE: Camera View Position Embedding für die Multi-View 3D Objektdetektion

Kaixin Xiong Shi Gong Xiaoqing Ye Xiao Tan Ji Wan Errui Ding Jingdong Wang Xiang Bai

Zusammenfassung

In diesem Paper behandeln wir das Problem der Detektion von 3D-Objekten aus Multi-View-Bildern. Aktuelle abfragende Methoden stützen sich auf globale 3D-Positions-Embeddings (PE), um die geometrische Korrespondenz zwischen Bildern und dem 3D-Raum zu lernen. Wir behaupten, dass die direkte Interaktion von 2D-Bildmerkmalen mit globalen 3D-PE die Lernbarkeit der Ansichtstransformation erschweren kann, bedingt durch die Variation der Kamerakalibrierungsparameter (Extrinsika). Daher stellen wir eine neuartige Methode vor, die auf einer CAmera view Position Embedding (CAPE) basiert. Statt des globalen Koordinatensystems nutzen wir ein lokales Kamerablickpunkt-Koordinatensystem zur Bildung der 3D-Positions-Embeddings, wodurch die 3D-Positionsembeddings unabhängig von den Kamerakalibrierungsparametern sind. Zudem erweitern wir CAPE um eine zeitliche Modellierung, indem wir die Objektabfragen vorheriger Frames ausnutzen und die Eigenbewegung (ego-motion) kodieren, um die 3D-Objektdetektion zu verbessern. CAPE erreicht eine state-of-the-art-Leistung (61,0 % NDS und 52,5 % mAP) unter allen LiDAR-freien Methoden auf dem nuScenes-Datensatz. Der Quellcode und die Modelle sind verfügbar unter \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} und \href{https://github.com/kaixinbear/CAPE}{PyTorch-Implementierung}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CAPE: Camera View Position Embedding für die Multi-View 3D Objektdetektion | Paper | HyperAI