Au-delà des patches locaux : préserver les interactions globales-locales en améliorant l'attention auto par une tokenisation de nuage de points 3D
Les architectures basées sur les transformateurs ont récemment démontré des performances remarquables sur diverses tâches d’analyse de nuages de points, telles que la classification de formes d’objets 3D et la segmentation sémantique. Cette amélioration peut en grande partie être attribuée à leur mécanisme d’attention auto-attentive, capable de capturer des dépendances à longue portée. Toutefois, les méthodes actuelles restreignent cet opérateur à des patches locaux en raison de ses contraintes mémoire quadratiques. Cette limitation nuit à leur capacité de généralisation et à leur scalabilité, en raison de la perte de non-localité au niveau des premiers couches. Pour remédier à ce problème, nous proposons une architecture de transformateur basée sur des fenêtres, capable de capturer des dépendances à longue portée tout en agrégeant efficacement les informations au sein de patches locaux. Nous y parvenons en faisant interagir chaque fenêtre avec un ensemble de tokens globaux représentant le nuage de points entier — une sous-ensemble représentatif de la scène complète — tout en enrichissant la géométrie locale à l’aide d’un descripteur 3D Histogram of Oriented Gradients (HOG). À travers une série d’expériences sur des tâches de segmentation et de classification, nous montrons que notre modèle dépasse l’état de l’art sur la segmentation sémantique S3DIS (+1,67 % de mIoU), sur la segmentation de parties ShapeNetPart (+1,03 % de mIoU par instance) et se distingue de manière compétitive sur la classification d’objets 3D ScanObjectNN. Le code source et les modèles entraînés seront rendus accessibles au public.