Transformateur sans attention masquée pour la segmentation d'instances 3D

Récemment, les méthodes basées sur les transformateurs ont dominé la segmentation d’instances 3D, où l’attention sur les masques est couramment utilisée. Plus précisément, les requêtes d’objets sont guidées par les masques d’instances initiaux lors de la première attention croisée, puis se réfinent itérativement selon un mécanisme similaire. Toutefois, nous observons que le pipeline d’attention sur les masques conduit généralement à une convergence lente en raison de masques d’instances initiaux à faible rappel. Par conséquent, nous abandonnons l’architecture d’attention sur les masques au profit d’une tâche auxiliaire de régression de centres. Grâce à cette régression de centres, nous surmontons efficacement le problème du faible rappel et réalisons l’attention croisée en imposant un prior positionnel. Pour atteindre cet objectif, nous proposons une série de conceptions sensibles à la position. Premièrement, nous apprenons une distribution spatiale des positions 3D comme requêtes initiales de position. Ces requêtes couvrent densesment l’espace 3D, permettant ainsi de capturer facilement les objets dans une scène avec un haut rappel. En outre, nous introduisons un encodage de position relative pour l’attention croisée et une réduction itérative pour améliorer la précision des requêtes de position. Les expérimentations montrent que notre approche converge 4 fois plus rapidement que les méthodes existantes, établit un nouveau record sur le benchmark de segmentation d’instances 3D ScanNetv2, et démontre également des performances supérieures sur diverses bases de données. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/dvlab-research/Mask-Attention-Free-Transformer.