CenterFormer : Transformer basé sur les centres pour la détection d'objets 3D

Le transformer basé sur les requêtes a démontré un grand potentiel dans la construction d’attention à longue portée pour de nombreuses tâches dans le domaine des images, mais il a été peu exploré dans le cadre de la détection d’objets 3D à partir de données LiDAR en raison de la taille massive des nuages de points. Dans cet article, nous proposons CenterFormer, un réseau transformer basé sur les centres pour la détection d’objets 3D. CenterFormer utilise d’abord une carte de chaleur de centres pour sélectionner des candidats de centres à partir d’un encodeur standard de nuage de points basé sur des voxels. Ensuite, les caractéristiques des candidats de centres sont utilisées comme embeddings de requête dans le transformer. Pour agréger davantage les caractéristiques provenant de plusieurs trames, nous avons conçu une méthode fondée sur l’attention croisée. Enfin, des têtes de régression sont ajoutées afin de prédire la boîte englobante à partir de la représentation de caractéristiques des centres en sortie. Notre architecture réduit à la fois les difficultés de convergence et la complexité computationnelle du modèle transformer. Les résultats montrent une amélioration significative par rapport à une base solide de réseaux de détection d’objets sans ancres. CenterFormer atteint des performances de pointe pour un modèle unique sur le jeu de données Waymo Open Dataset, avec un mAPH de 73,7 % sur l’ensemble de validation et de 75,6 % sur l’ensemble de test, surpassant nettement toutes les méthodes précédemment publiées basées sur des CNN ou des transformers. Notre code est disponible publiquement à l’adresse suivante : https://github.com/TuSimple/centerformer