HyperAIHyperAI
il y a 2 mois

CLIP2Point : Transfert de CLIP à la classification de nuages de points avec un pré-entraînement image-profondeur

Tianyu Huang; Bowen Dong; Yunhan Yang; Xiaoshui Huang; Rynson W.H. Lau; Wanli Ouyang; Wangmeng Zuo
CLIP2Point : Transfert de CLIP à la classification de nuages de points avec un pré-entraînement image-profondeur
Résumé

Le pré-entraînement couvrant la vision 3D et le langage reste en développement en raison de la limitation des données d'entraînement. Des travaux récents tentent de transférer les modèles de pré-entraînement vision-langage à la vision 3D. PointCLIP convertit les données de nuages de points en cartes de profondeur multivues, adoptant CLIP pour la classification des formes. Cependant, ses performances sont limitées par l'écart entre les domaines des cartes de profondeur rendues et des images, ainsi que par la diversité des distributions de profondeur. Pour résoudre ce problème, nous proposons CLIP2Point, une méthode de pré-entraînement image-profondeur basée sur l'apprentissage par contraste pour transférer CLIP au domaine 3D et l'adapter à la classification des nuages de points. Nous introduisons un nouveau paramètre de rendu de profondeur qui offre un meilleur effet visuel, puis nous générons 52 460 paires d'images et de cartes de profondeur à partir de ShapeNet pour le pré-entraînement. Le schéma de pré-entraînement de CLIP2Point combine l'apprentissage inter-modalités pour imposer les caractéristiques de profondeur capturant des traits visuels et textuels expressifs, et l'apprentissage intra-modalités pour améliorer l'invariance de l'agrégation de profondeur. De plus, nous proposons un nouveau module Dual-Path Adapter (DPA), c'est-à-dire une structure double voie avec des adaptateurs simplifiés pour l'apprentissage à faible supervision. La structure double voie permet l'utilisation conjointe de CLIP et CLIP2Point, tandis que les adaptateurs simplifiés s'adaptent bien aux tâches à faible supervision sans recherche postérieure. Les résultats expérimentaux montrent que CLIP2Point est efficace dans le transfert des connaissances CLIP vers la vision 3D. Notre CLIP2Point surpassant PointCLIP et d'autres réseaux 3D auto-supervisés, il atteint des résultats d'avant-garde en classification zéro-shot et à faible supervision.