HyperAIHyperAI
il y a 2 mois

Apprentissage de représentations 3D à partir de modèles pré-entraînés 2D par des autoencodeurs masqués d'image à point

Zhang, Renrui ; Wang, Liuhui ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
Apprentissage de représentations 3D à partir de modèles pré-entraînés 2D par
des autoencodeurs masqués d'image à point
Résumé

Le pré-entraînement sur de nombreuses données d'images est devenu une pratique de facto pour obtenir des représentations 2D robustes. En revanche, en raison du coût élevé de l'acquisition et de l'annotation des données, la rareté de grands ensembles de données 3D entrave considérablement l'apprentissage de caractéristiques 3D de haute qualité. Dans cet article, nous proposons une alternative pour obtenir des représentations 3D supérieures à partir de modèles pré-entraînés en 2D via les Image-to-Point Masked Autoencoders (I2P-MAE). Grâce au pré-entraînement auto-supervisé, nous exploitons les connaissances bien acquises en 2D pour guider le masquage autoencodeur 3D, qui reconstruit les jetons ponctuels masqués à l'aide d'une architecture encodeur-décodeur. Plus précisément, nous utilisons d'abord des modèles 2D prêts à l'emploi pour extraire les caractéristiques visuelles multivues du nuage de points d'entrée, puis nous mettons en œuvre deux types de schémas d'apprentissage image-to-point. D'une part, nous introduisons une stratégie de masquage guidée par la 2D qui maintient les jetons ponctuels sémantiquement importants visibles pour l'encodeur. Par rapport au masquage aléatoire, ce réseau peut mieux se concentrer sur les structures 3D significatives et récupérer les jetons masqués à partir d'indices spatiaux clés. D'autre part, nous imposons à ces jetons visibles de reconstruire les caractéristiques visuelles multivues correspondantes après le décodeur. Cela permet au réseau d'hériter efficacement des sémantiques 2D de haut niveau apprises à partir de données d'images riches pour la modélisation discriminante 3D. Avec notre pré-entraînement image-to-point, le I2P-MAE figé atteint une précision de 93,4 % pour un SVM linéaire sur ModelNet40, ce qui est compétitif par rapport aux résultats entièrement entraînés des méthodes existantes. En effectuant un ajustement fin supplémentaire sur la division la plus difficile de ScanObjectNN, I2P-MAE obtient une précision record de 90,11 %, soit +3,68 % par rapport au deuxième meilleur résultat, démontrant ainsi une capacité transférable supérieure. Le code sera disponible sur https://github.com/ZrrSkywalker/I2P-MAE.

Apprentissage de représentations 3D à partir de modèles pré-entraînés 2D par des autoencodeurs masqués d'image à point | Articles de recherche récents | HyperAI