Regress Before Construct : Regress Autoencoder pour l'Apprentissage Non Supervisé de Nuages de Points

Les Autoencodeurs Masqués (MAE) ont démontré des performances prometteuses dans l'apprentissage non supervisé pour la vision par ordinateur en 2D et 3D. Néanmoins, les méthodes actuelles basées sur les MAE présentent encore certains inconvénients. Premièrement, le découplage fonctionnel entre l'encodeur et le décodeur n'est pas complet, ce qui limite la capacité de l'encodeur à apprendre des représentations. Deuxièmement, les tâches en aval utilisent uniquement l'encodeur, ne tirant pas pleinement parti des connaissances acquises grâce à l'architecture encodeur-décodeur lors de la tâche prétexte.Dans cet article, nous proposons Point Regress AutoEncoder (Point-RAE), un nouveau schéma d'autoencodeurs régressifs pour l'apprentissage non supervisé de nuages de points. La méthode proposée découple les fonctions entre le décodeur et l'encodeur en introduisant un régresseur masqué, qui prédit la représentation des patches masqués à partir de la représentation des patches visibles encodée par l'encodeur. Le décodeur reconstruit ensuite la cible à partir de cette représentation prédite des patches masqués. En procédant ainsi, nous minimisons l'impact des mises à jour du décodeur sur l'espace de représentation de l'encodeur.De plus, nous introduisons une contrainte d'alignement pour garantir que les représentations des patches masqués, prédites à partir des représentations encodées des patches visibles, sont alignées avec les représentations des patches masqués calculées directement par l'encodeur. Pour tirer pleinement parti des connaissances acquises lors de la phase de pré-entraînement, nous concevons un nouveau mode de fine-tuning pour le Point-RAE proposé.Des expériences approfondies montrent que notre approche est efficace pendant la phase de pré-entraînement et se généralise bien sur diverses tâches en aval. Plus précisément, nos modèles pré-entraînés atteignent une précision élevée de \textbf{90,28\%} sur la division la plus difficile de ScanObjectNN et une précision de \textbf{94,1\%} sur ModelNet40, surpassant toutes les autres méthodes d'apprentissage non supervisé. Notre code source et notre modèle pré-entraîné sont disponibles au public sur : \url{https://github.com/liuyyy111/Point-RAE}.