HyperAIHyperAI
il y a 2 mois

3D-JEPA : Une architecture prédictive de plongement conjointe pour l'apprentissage auto-supervisé en 3D

Hu, Naiwen ; Cheng, Haozhe ; Xie, Yifan ; Li, Shiqi ; Zhu, Jihua
3D-JEPA : Une architecture prédictive de plongement conjointe pour l'apprentissage auto-supervisé en 3D
Résumé

Les méthodes basées sur l'invariance et les méthodes génératives ont montré des performances remarquables pour l'apprentissage non supervisé de représentations 3D (SSRL). Cependant, les premières reposent sur des augmentations de données conçues manuellement qui introduisent un biais non universellement applicable à toutes les tâches en aval, tandis que les secondes reconstruisent indistinctement les régions masquées, entraînant la sauvegarde de détails non pertinents dans l'espace de représentation. Pour résoudre ces problèmes, nous présentons 3D-JEPA, un nouveau cadre d'SSRL 3D non génératif. Plus précisément, nous proposons une stratégie d'échantillonnage multi-blocs qui produit un bloc contextuel suffisamment informatif et plusieurs blocs cibles représentatifs. Nous introduisons le décodeur contextuel pour améliorer la reconstruction des blocs cibles. Concrètement, les informations contextuelles sont fournies au décodeur de manière continue, facilitant ainsi l'apprentissage par l'encodeur d'un modèle sémantique plutôt que la mémorisation des informations contextuelles liées aux blocs cibles. Dans son ensemble, 3D-JEPA prédit la représentation des blocs cibles à partir d'un bloc contextuel en utilisant une architecture d'encodeur et de décodeur contextuel. Diverses tâches en aval sur différents jeux de données démontrent l'efficacité et l'efficience de 3D-JEPA, atteignant une précision plus élevée avec moins d'époques de pré-entraînement, par exemple, une précision de 88,65 % sur PB_T50_RS avec 150 époques de pré-entraînement.