CAPE : Embedding de Position de Vue Caméra pour la Détection 3D Multi-Vue d'Objets

Dans cet article, nous abordons le problème de la détection d'objets 3D à partir d'images multi-vues. Les méthodes actuelles basées sur des requêtes reposent sur des embeddings de position 3D globaux (PE) afin d'apprendre la correspondance géométrique entre les images et l'espace 3D. Nous affirmons qu'interagir directement les caractéristiques 2D des images avec des PE 3D globaux peut compliquer l'apprentissage de la transformation de vue en raison des variations des paramètres d'extrinsèques caméra. Ainsi, nous proposons une nouvelle méthode fondée sur un embedding de position de vue caméra, appelée CAPE (Camera-view Position Embedding). Nous construisons les embeddings de position 3D dans un système de coordonnées local par rapport à la vue caméra, plutôt que dans un système global, de manière à ce que l'embedding de position 3D ne dépende pas de l'encodage des paramètres d'extrinsèques caméra. En outre, nous étendons notre méthode CAPE au traitement temporel en exploitant les requêtes d'objets des cadres précédents et en encodant le mouvement propre (ego-motion) afin d'améliorer la détection d'objets 3D. CAPE atteint des performances de pointe parmi toutes les méthodes ne nécessitant pas de LiDAR sur le jeu de données nuScenes (61,0 % NDS et 52,5 % mAP). Le code source et les modèles sont disponibles sur \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} et \href{https://github.com/kaixinbear/CAPE}{Implémentation PyTorch}.