HyperAIHyperAI
il y a 2 mois

Autoencodeurs comme enseignants intermodaux : Les transformateurs préentraînés d'images 2D peuvent-ils aider à l'apprentissage des représentations 3D ?

Dong, Runpei ; Qi, Zekun ; Zhang, Linfeng ; Zhang, Junbo ; Sun, Jianjian ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng
Autoencodeurs comme enseignants intermodaux : Les transformateurs préentraînés d'images 2D peuvent-ils aider à l'apprentissage des représentations 3D ?
Résumé

Le succès de l'apprentissage profond repose en grande partie sur des données à grande échelle avec des étiquettes exhaustives, ce qui est plus coûteux et chronophage à obtenir en 3D par rapport aux images 2D ou aux langages naturels. Cela favorise le potentiel d'utilisation de modèles préentraînés avec des données autres que 3D comme enseignants pour le transfert de connaissances intermodales. Dans cet article, nous revisitons la modélisation masquée dans une approche unifiée de distillation de connaissances, et nous montrons que les Transformers fondamentaux préentraînés avec des images 2D ou des langages naturels peuvent aider l'apprentissage supervisé par soi-même des représentations 3D en entraînant des Autoencodeurs comme Enseignants Intermodaux (ACT). Les Transformers préentraînés sont transférés en tant qu'enseignants intermodaux 3D en utilisant une supervision auto-supervisée par autoencodeur variationnel discret, durant laquelle les Transformers sont figés avec un ajustement de prompt pour une meilleure transmission des connaissances. Les caractéristiques latentes encodées par les enseignants 3D sont utilisées comme cible de la modélisation de points masqués, où la connaissance cachée est distillée vers les étudiants Transformers 3D pour une compréhension géométrique fondamentale. Notre apprenant 3D préentraîné ACT atteint une capacité généralisante d'avant-garde sur diverses benchmarks downstream, par exemple, une précision globale de 88,21% sur ScanObjectNN. Le code source a été publié à l'adresse suivante : https://github.com/RunpeiDong/ACT.

Autoencodeurs comme enseignants intermodaux : Les transformateurs préentraînés d'images 2D peuvent-ils aider à l'apprentissage des représentations 3D ? | Articles de recherche récents | HyperAI