HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2Point : Transfert de CLIP à la classification de nuages de points avec un pré-entraînement image-profondeur

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Résumé

Le pré-entraînement couvrant la vision 3D et le langage reste en développement en raison de la limitation des données d'entraînement. Des travaux récents tentent de transférer les modèles de pré-entraînement vision-langage à la vision 3D. PointCLIP convertit les données de nuages de points en cartes de profondeur multivues, adoptant CLIP pour la classification des formes. Cependant, ses performances sont limitées par l'écart entre les domaines des cartes de profondeur rendues et des images, ainsi que par la diversité des distributions de profondeur. Pour résoudre ce problème, nous proposons CLIP2Point, une méthode de pré-entraînement image-profondeur basée sur l'apprentissage par contraste pour transférer CLIP au domaine 3D et l'adapter à la classification des nuages de points. Nous introduisons un nouveau paramètre de rendu de profondeur qui offre un meilleur effet visuel, puis nous générons 52 460 paires d'images et de cartes de profondeur à partir de ShapeNet pour le pré-entraînement. Le schéma de pré-entraînement de CLIP2Point combine l'apprentissage inter-modalités pour imposer les caractéristiques de profondeur capturant des traits visuels et textuels expressifs, et l'apprentissage intra-modalités pour améliorer l'invariance de l'agrégation de profondeur. De plus, nous proposons un nouveau module Dual-Path Adapter (DPA), c'est-à-dire une structure double voie avec des adaptateurs simplifiés pour l'apprentissage à faible supervision. La structure double voie permet l'utilisation conjointe de CLIP et CLIP2Point, tandis que les adaptateurs simplifiés s'adaptent bien aux tâches à faible supervision sans recherche postérieure. Les résultats expérimentaux montrent que CLIP2Point est efficace dans le transfert des connaissances CLIP vers la vision 3D. Notre CLIP2Point surpassant PointCLIP et d'autres réseaux 3D auto-supervisés, il atteint des résultats d'avant-garde en classification zéro-shot et à faible supervision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CLIP2Point : Transfert de CLIP à la classification de nuages de points avec un pré-entraînement image-profondeur | Articles | HyperAI