HyperAIHyperAI
il y a 18 jours

Point-LGMask : Intégration de Contextes Locaux et Globaux pour l'Pré-entraînement de Nuages de Points par Masquage Multiratio

{Min Chen, Yixue Hao, Long Hu, Qiao Yu, Jinfeng Xu, Xianzhi Li, Yuan Tang}
Résumé

L’apprentissage auto-supervisé a connu un grand succès tant en traitement du langage naturel qu’en vision 2D, où le modèle masqué constitue une approche pré-entraînement très répandue. Toutefois, étendre le masquage à la compréhension des nuages de points 3D, qui combine des caractéristiques locales et globales, soulève de nouveaux défis. Dans notre travail, nous proposons Point-LGMask, une méthode novatrice permettant d’intégrer à la fois les contextes locaux et globaux grâce à un masquage à plusieurs ratios, une approche particulièrement efficace pour l’apprentissage auto-supervisé des représentations de nuages de points, mais qui reste négligée par les travaux existants sur le pré-entraînement. Plus précisément, afin d’éviter un ajustement à un ratio de masquage fixe, nous introduisons d’abord le masquage à plusieurs ratios, qui incite l’encodeur à explorer pleinement des caractéristiques représentatives grâce à des tâches de difficultés variées. Ensuite, pour favoriser l’encodage à la fois des caractéristiques locales et globales, nous formulons une perte combinée composée de : (i) une perte contrastive sur les représentations globales, visant à assurer la cohérence des affectations de clusters entre les nuages de points masqués et l’entrée complétée ; et (ii) une perte de prédiction des points locaux, visant à garantir une prédiction précise des points masqués. Grâce à notre Point-LGMask, nous démontrons que les représentations apprises se transmettent efficacement à diverses tâches en aval, notamment la classification à faible nombre d’exemples, la classification de formes, la segmentation des parties d’objets, ainsi que la détection d’objets 3D et la segmentation sémantique 3D basées sur des scènes réelles. En particulier, notre modèle améliore considérablement les méthodes pré-entraînées existantes sur la tâche exigeante de classification à faible nombre d’exemples, utilisant le jeu de données réellement capté ScanObjectNN, en dépassant de plus de 4 % la deuxième meilleure méthode. De plus, Point-LGMask atteint des gains de 0,4 % en AP25 et de 0,8 % en AP50 sur la tâche de détection d’objets 3D par rapport à la deuxième meilleure méthode, ainsi que des gains de 0,4 % en mAcc et de 0,5 % en mIoU. Le code source est disponible à l’adresse suivante : https://github.com/TangYuan96/Point-LGMask