HyperAIHyperAI
il y a 2 mois

Point-M2AE : Autoencodeurs masqués multi-échelles pour le pré-entraînement hiérarchique des nuages de points

Zhang, Renrui ; Guo, Ziyu ; Fang, Rongyao ; Zhao, Bin ; Wang, Dong ; Qiao, Yu ; Li, Hongsheng ; Gao, Peng
Point-M2AE : Autoencodeurs masqués multi-échelles pour le pré-entraînement hiérarchique des nuages de points
Résumé

Les Autoencodeurs Masqués (MAE) ont montré un grand potentiel dans l'apprentissage auto-supervisé pré-entraîné pour les transformateurs de langage et d'images 2D. Cependant, la question de savoir comment exploiter le masquage auto-encodant pour l'apprentissage de représentations 3D de nuages de points irréguliers reste ouverte. Dans cet article, nous proposons Point-M2AE, une puissante architecture de pré-entraînement Multi-échelle MAE pour l'apprentissage hiérarchique auto-supervisé des nuages de points 3D. Contrairement au transformateur standard utilisé dans les MAE, nous modifions l'encodeur et le décodeur en architectures pyramidales afin de modéliser progressivement les géométries spatiales et de capturer à la fois les sémantiques fines et les sémantiques de haut niveau des formes 3D. Pour l'encodeur qui réduit le nombre de jetons ponctuels par étapes, nous concevons une stratégie de masquage multi-échelle pour générer des régions visibles cohérentes à travers les échelles, et adoptons un mécanisme d'auto-attention spatiale locale lors du fine-tuning pour se concentrer sur les motifs voisins.Grâce à la propagation multi-échelle des jetons, le décodeur léger reconstruit progressivement les jetons ponctuels avec des connexions résiduelles complémentaires provenant de l'encodeur, ce qui favorise davantage la reconstruction selon une perspective globale vers locale. De nombreux expériences montrent que Point-M2AE offre des performances d'avant-garde dans l'apprentissage de représentations 3D. Avec un encodeur figé après le pré-entraînement, Point-M2AE atteint une précision de 92,9 % pour une SVM linéaire sur ModelNet40, surpassant même certaines méthodes entièrement entraînées. En effectuant du fine-tuning sur des tâches en aval, Point-M2AE atteint une précision de 86,43 % sur ScanObjectNN, soit +3,36 % par rapport à la deuxième meilleure méthode, et apporte un bénéfice considérable à la classification avec peu d'exemples (few-shot), au segmentionnement par parties et à la détection d'objets 3D grâce au schéma de pré-entraînement hiérarchique. Le code est disponible sur https://github.com/ZrrSkywalker/Point-M2AE.

Point-M2AE : Autoencodeurs masqués multi-échelles pour le pré-entraînement hiérarchique des nuages de points | Articles de recherche récents | HyperAI