Transformateur de voxels pour la détection d'objets 3D

Nous présentons Voxel Transformer (VoTr), un nouveau et efficace modèle fondamental basé sur les voxels et inspiré des Transformers pour la détection d'objets 3D à partir de nuages de points. Les modèles fondamentaux classiques basés sur les convolutions 3D dans les détecteurs 3D à voxels peinent à capturer efficacement des informations contextuelles étendues, ce qui est crucial pour la reconnaissance et la localisation d'objets, en raison de champs réceptifs limités. Dans cet article, nous résolvons ce problème en introduisant une architecture basée sur les Transformers, permettant de modéliser des relations à longue portée entre voxels grâce à l'attention auto-attention. Étant donné que les voxels non vides sont naturellement rares mais nombreux, l'application directe du Transformer standard aux voxels s'avère non triviale. À cet effet, nous proposons deux modules : le module de voxel creux et le module de voxel sous-variété, capables de traiter efficacement respectivement les positions vides et non vides des voxels. Pour étendre davantage la portée d'attention tout en maintenant un coût computationnel comparable à celui des modèles basés sur les convolutions, nous introduisons deux mécanismes d'attention pour l'attention à plusieurs têtes dans ces deux modules : l'attention locale et l'attention dilatée. Nous proposons également Fast Voxel Query, une méthode permettant d'accélérer le processus de requêtage dans l'attention à plusieurs têtes. VoTr est composé d'une série de modules de voxels creux et de voxels sous-variété, et peut être intégré dans la plupart des détecteurs basés sur les voxels. Nos expérimentations montrent que VoTr améliore de manière cohérente les performances par rapport aux modèles basés sur les convolutions, tout en préservant une efficacité computationnelle élevée sur les jeux de données KITTI et Waymo Open.