HyperAIHyperAI
il y a 2 mois

PCP-MAE : Apprendre à Prédire les Centres pour les Autoencodeurs Masqués de Points

Zhang, Xiangdong ; Zhang, Shaofeng ; Yan, Junchi
PCP-MAE : Apprendre à Prédire les Centres pour les Autoencodeurs Masqués de Points
Résumé

Les autoencodeurs masqués ont été largement explorés dans l'apprentissage auto-supervisé des nuages de points, où le nuage de points est généralement divisé en parties visibles et masquées. Ces méthodes incluent généralement un encodeur qui accepte les patches visibles (normalisés) et leurs centres correspondants (position) en entrée, tandis que le décodeur reçoit la sortie de l'encodeur et les centres (position) des parties masquées pour reconstruire chaque point des patches masqués. Ensuite, les encodeurs pré-entraînés sont utilisés pour des tâches en aval. Dans cet article, nous présentons un résultat empirique motivant montrant que lorsque les centres des patches masqués sont directement fournis au décodeur sans information provenant de l'encodeur, la reconstruction reste bonne. Autrement dit, les centres des patches sont importants et l'objectif de reconstruction ne dépend pas nécessairement des représentations de l'encodeur, ce qui peut empêcher l'encodeur d'apprendre des représentations sémantiques. Sur la base de cette observation clé, nous proposons une méthode simple mais efficace : apprendre à Prédire les Centres pour les AutoEncodeurs Masqués de Points (PCP-MAE), qui guide le modèle à prédire les centres significatifs et à utiliser ces centres prédits pour remplacer ceux fournis directement. Plus précisément, nous proposons un module de Prédiction des Centres (PCM) qui partage les paramètres avec l'encodeur original et utilise une attention croisée supplémentaire pour prédire les centres. Notre méthode offre une efficacité élevée lors du pré-entraînement par rapport aux autres alternatives et réalise d'excellentes améliorations par rapport à Point-MAE, notamment en surpassant ce dernier de 5,50 % sur OBJ-BG, 6,03 % sur OBJ-ONLY et 5,17 % sur PB-T50-RS pour la classification d'objets 3D sur le jeu de données ScanObjectNN. Le code est disponible à l'adresse suivante : https://github.com/aHapBean/PCP-MAE.