HyperAIHyperAI
il y a 2 mois

PointCLIP V2 : Utilisation de CLIP et GPT pour un apprentissage puissant en monde ouvert 3D

Zhu, Xiangyang ; Zhang, Renrui ; He, Bowei ; Guo, Ziyu ; Zeng, Ziyao ; Qin, Zipeng ; Zhang, Shanghang ; Gao, Peng
PointCLIP V2 : Utilisation de CLIP et GPT pour un apprentissage puissant en monde ouvert 3D
Résumé

Les grands modèles pré-entraînés ont montré des performances prometteuses dans le monde ouvert pour les tâches de vision et de langage. Cependant, leur capacité transférée sur les nuages de points 3D est encore limitée et se limite principalement à la tâche de classification. Dans cet article, nous combinons d'abord CLIP et GPT pour créer un apprenant unifié du monde ouvert 3D, nommé PointCLIP V2, qui libère pleinement leur potentiel pour la classification 3D sans supervision, la segmentation et la détection. Pour mieux aligner les données 3D avec les connaissances linguistiques pré-entraînées, PointCLIP V2 intègre deux conceptions clés. Du côté visuel, nous sollicitons CLIP via un module de projection de forme pour générer des cartes de profondeur plus réalistes, réduisant ainsi l'écart de domaine entre les nuages de points projetés et les images naturelles. Du côté textuel, nous sollicitons le modèle GPT pour générer des textes spécifiques aux données 3D en tant qu'entrée du codificateur textuel de CLIP. Sans aucun entraînement dans des domaines 3D, notre approche dépasse significativement PointCLIP avec une précision accrue de +42,90 %, +40,44 % et +28,75 % sur trois jeux de données pour la classification 3D sans supervision. De plus, V2 peut être étendu à la classification 3D à partir de quelques exemples (few-shot), à la segmentation partielle 3D sans supervision et à la détection d'objets 3D d'une manière simple, démontrant notre capacité de généralisation pour l'apprentissage unifié du monde ouvert 3D.

PointCLIP V2 : Utilisation de CLIP et GPT pour un apprentissage puissant en monde ouvert 3D | Articles de recherche récents | HyperAI