HyperAIHyperAI
il y a 11 jours

Swin3D : un squelette Transformer pré-entraîné pour la compréhension des scènes intérieures 3D

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo
Swin3D : un squelette Transformer pré-entraîné pour la compréhension des scènes intérieures 3D
Résumé

L’utilisation de modèles préentraînés avec une adaptation fine (fine-tuning) s’est révélée efficace pour les tâches de vision 2D et de traitement du langage naturel, offrant des avantages par rapport aux réseaux spécifiques à une tâche. Dans ce travail, nous introduisons un modèle préentraîné 3D, nommé {\SST}, dédié à la compréhension des scènes intérieures en 3D. Nous concevons un réseau de base basé sur un transformateur Swin 3D, permettant une attention auto-associative efficace sur des voxels creux avec une complexité mémoire linéaire, ce qui rend le modèle scalable à des architectures et des jeux de données de grande taille. Nous proposons également un schéma généralisé d’encodage positionnel relatif contextuel, permettant de capturer diverses irrégularités des signaux ponctuels et améliorant ainsi les performances du réseau. Nous avons préentraîné un grand modèle {\SST} sur un jeu de données synthétique, Structured3D, dont la taille est d’un ordre de grandeur supérieure à celle du jeu de données ScanNet. Le modèle préentraîné sur des données synthétiques se généralise non seulement efficacement aux tâches de segmentation et de détection sur des jeux de données réels en 3D, mais dépasse également les méthodes de pointe sur ces tâches, avec une amélioration de +2,3 mIoU et +2,2 mIoU sur la segmentation sémantique 6-plis pour les zones 5 et 6 de S3DIS, +1,8 mIoU sur la segmentation ScanNet (validation), +1,9 mAP@0,5 sur la détection ScanNet, et +8,1 mAP@0,5 sur la détection S3DIS. Une série d’études d’ablation approfondies confirme la scalabilité, la généralisation et les performances supérieures offertes par notre approche. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/microsoft/Swin3D.

Swin3D : un squelette Transformer pré-entraîné pour la compréhension des scènes intérieures 3D | Articles de recherche récents | HyperAI