Point-BERT : Pré-entraînement de transformateurs pour nuages de points 3D avec modélisation masquée de points

Nous présentons Point-BERT, un nouveau paradigme pour l'apprentissage des Transformers généralisant le concept de BERT aux nuages de points 3D. Inspirés par BERT, nous avons conçu une tâche de Modélisation de Points Masqués (MPM) pour pré-entraîner les Transformers de nuages de points. Plus précisément, nous divisons d'abord un nuage de points en plusieurs patchs locaux, et un Tokenizer de nuages de points basé sur un Variational AutoEncoder discret (dVAE) est conçu pour générer des tokens discrets contenant des informations locales significatives. Ensuite, nous masquons aléatoirement certains patchs des nuages de points d'entrée et les alimentons dans le backbone Transformer. L'objectif du pré-entraînement est de restaurer les tokens originaux aux emplacements masqués sous la supervision des tokens obtenus par le Tokenizer. De nombreuses expériences montrent que la stratégie de pré-entraînement à la manière de BERT proposée améliore considérablement les performances des Transformers standards pour les nuages de points. Dotés de notre stratégie de pré-entraînement, nous démontrons qu'une architecture pure Transformer atteint une précision de 93,8 % sur ModelNet40 et 83,1 % sur le paramètre le plus difficile de ScanObjectNN, surpassant ainsi des modèles soigneusement conçus pour les nuages de points avec beaucoup moins d'éléments conçus manuellement. Nous montrons également que les représentations apprises par Point-BERT se transposent bien à de nouvelles tâches et domaines, où nos modèles font progresser considérablement l'état de l'art en classification few-shot des nuages de points. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/lulutang0608/Point-BERT