HyperAIHyperAI
il y a 4 mois

Prendre-Une-Photo : Pré-entraînement Génératif 3D-2D des Modèles de Nuages de Points

Wang, Ziyi ; Yu, Xumin ; Rao, Yongming ; Zhou, Jie ; Lu, Jiwen
Prendre-Une-Photo : Pré-entraînement Génératif 3D-2D des Modèles de Nuages de Points
Résumé

Avec la tendance prédominante de modélisation d'images masquées dirigée par MAE (Masked Autoencoder), l'entraînement génératif a montré un potentiel remarquable pour améliorer les performances des modèles fondamentaux en vision 2D. Cependant, en vision 3D, la dépendance excessive aux backbones basés sur les Transformers et la nature non ordonnée des nuages de points ont limité le développement ultérieur de l'entraînement génératif. Dans cet article, nous proposons une nouvelle méthode d'entraînement génératif 3D-to-2D adaptable à tout modèle de nuage de points. Nous suggérons de générer des images de vue à partir de différentes poses instructives via le mécanisme d'attention croisée comme schéma d'entraînement préalable. La génération d'images de vue offre une supervision plus précise que son équivalent en nuage de points, aidant ainsi les backbones 3D à avoir une compréhension plus fine de la structure géométrique et des relations stéréoscopiques du nuage de points. Les résultats expérimentaux ont prouvé la supériorité de notre méthode d'entraînement génératif 3D-to-2D par rapport aux méthodes d'entraînement préalable précédentes. Notre méthode est également efficace pour améliorer les performances des approches orientées vers l'architecture, atteignant des performances de pointe lors du réglage fin sur les tâches de classification ScanObjectNN et de segmentation ShapeNetPart. Le code est disponible à l'adresse suivante : https://github.com/wangzy22/TAP.