PointCLIP : Compréhension des nuages de points par CLIP

Récemment, l'apprentissage sans exemple et à partir de quelques exemples par le pré-entraînement contrastif vision-langue (CLIP) a montré des performances inspirantes en reconnaissance visuelle 2D, en apprenant à associer des images avec leurs textes correspondants dans des configurations de vocabulaire ouvert. Cependant, il reste peu exploré si CLIP, pré-entraîné sur de grandes échelles d'images-textes en 2D, peut être généralisé à la reconnaissance 3D. Dans cet article, nous identifions que ce cadre est réalisable en proposant PointCLIP, qui réalise une mise en correspondance entre les nuages de points encodés par CLIP et les textes de catégories 3D. Plus précisément, nous encodons un nuage de points en le projetant dans des cartes de profondeur multi-vues sans rendu, et nous agrégons les prédictions zéro-shot par vue pour transférer les connaissances de la 2D à la 3D. De plus, nous concevons un adaptateur inter-vues pour extraire mieux la caractéristique globale et fusionner adaptativement les connaissances à partir de quelques exemples apprises en 3D dans CLIP pré-entraîné en 2D. En ne faisant qu'affiner l'adaptateur léger dans les configurations à partir de quelques exemples, les performances de PointCLIP peuvent être considérablement améliorées. De plus, nous observons une propriété complémentaire entre PointCLIP et les réseaux classiques supervisés en 3D. Par un simple assemblage, PointCLIP améliore les performances du modèle de base et dépasse même les modèles d'avant-garde actuels. Ainsi, PointCLIP est une alternative prometteuse pour une compréhension efficace des nuages de points 3D via CLIP avec un faible coût en ressources et sous régime limité de données. Nous menons des expériences approfondies sur ModelNet10, ModelNet40 largement adoptés et sur le défi ScanObjectNN pour démontrer l'efficacité de PointCLIP. Le code est disponible sur https://github.com/ZrrSkywalker/PointCLIP.