SA-Det3D : Détection 3D d'objets contextuelle basée sur l'attention self-attention

Les détecteurs d’objets 3D basés sur les nuages de points existants utilisent des opérateurs similaires aux convolutions pour traiter l’information dans un voisinage local à l’aide de noyaux à poids fixes, tout en agrégeant le contexte global de manière hiérarchique. Toutefois, les réseaux neuronaux non locaux et l’attention auto-associative en vision 2D ont démontré que la modélisation explicite des interactions à longue portée peut conduire à des modèles plus robustes et performants. Dans ce travail, nous proposons deux variantes d’attention auto-associative pour la modélisation du contexte dans la détection d’objets 3D, en enrichissant les caractéristiques convolutionnelles par des caractéristiques d’attention auto-associative. Nous intégrons d’abord le mécanisme d’attention auto-associative par paires aux détecteurs d’état de l’art actuels basés sur la vue top-down (BEV), les voxels et les points, et montrons une amélioration cohérente par rapport aux modèles de base forts, avec une augmentation allant jusqu’à 1,5 point de 3D AP sur le jeu de validation KITTI, tout en réduisant simultanément la taille des paramètres de 15 à 80 % et le coût computationnel de 30 à 50 %. Nous proposons ensuite une variante d’attention auto-associative qui sélectionne un sous-ensemble des caractéristiques les plus représentatives en apprenant des déformations à partir de positions aléatoirement échantillonnées. Cette approche permet non seulement d’étendre la modélisation explicite du contexte global à des nuages de points de plus grande taille, mais conduit également à des descripteurs de caractéristiques plus discriminants et informatifs. Notre méthode peut être appliquée de manière flexible à la plupart des détecteurs d’état de l’art, offrant une meilleure précision ainsi qu’une efficacité accrue en termes de paramètres et de calcul. Nous démontrons que notre méthode améliore les performances de détection d’objets 3D sur les jeux de données KITTI, nuScenes et Waymo Open. Le code est disponible à l’adresse suivante : https://github.com/AutoVision-cloud/SA-Det3D.