HyperAIHyperAI
il y a 11 jours

PolarFormer : Détection 3D d'objets à plusieurs caméras avec un Transformer polaire

Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang
PolarFormer : Détection 3D d'objets à plusieurs caméras avec un Transformer polaire
Résumé

La détection d'objets 3D en conduite autonome vise à déterminer « quoi » et « où » se trouvent les objets d'intérêt dans un monde 3D. Conformément à l'approche classique de la détection d'objets 2D, les méthodes existantes adoptent fréquemment le système de coordonnées cartésiennes canonique, caractérisé par des axes perpendiculaires. Toutefois, nous affirmons que ce cadre ne correspond pas à la nature de la perspective de l'automobile embarquée, car chaque caméra embarquée perçoit le monde sous la forme d'un coin (wedge), intrinsèquement lié à la géométrie de l'imagerie, avec des axes radicaux (non perpendiculaires). En conséquence, dans cet article, nous proposons l'exploitation du système de coordonnées polaires et introduisons un nouveau modèle, le PolarFormer, pour une détection d'objets 3D plus précise en vue de dessus (bird's-eye-view, BEV), à partir uniquement d'images 2D issues de plusieurs caméras. Plus précisément, nous concevons une tête de détection polaire basée sur une attention croisée, sans contrainte quant à la forme de la grille d'entrée, afin de traiter efficacement les grilles polaires irrégulières. Pour faire face aux variations non contraintes de l'échelle des objets le long de la dimension radiale en coordonnées polaires, nous introduisons également une stratégie d'apprentissage de représentation polaire multi-échelle. En résulte un modèle capable d'exploiter au mieux la représentation polaire, en la rasterisant par une attention séquentielle aux observations d'image, tout en respectant les contraintes géométriques. Des expériences approfondies sur le jeu de données nuScenes démontrent que notre PolarFormer surpasse significativement les méthodes de détection d'objets 3D de pointe actuelles.

PolarFormer : Détection 3D d'objets à plusieurs caméras avec un Transformer polaire | Articles de recherche récents | HyperAI