Command Palette
Search for a command to run...
OpenDlign : Compréhension du nuage de points dans un monde ouvert avec des images alignées en profondeur
OpenDlign : Compréhension du nuage de points dans un monde ouvert avec des images alignées en profondeur
Ye Mao Junpeng Jing* Krystian Mikołajczyk
Résumé
Les méthodes récentes d'apprentissage de représentations 3D dans un monde ouvert utilisant des modèles vision-langue (VLMs) pour aligner les nuages de points 3D avec des informations image-texte ont montré une performance 3D zéro-shot supérieure. Cependant, les images rendues par CAD pour cet alignement manquent souvent de réalisme et de variété texturale, compromettant la robustesse de l'alignement. De plus, le déséquilibre volumétrique entre les ensembles de données d'apprentissage préalable 3D et 2D souligne la nécessité de stratégies efficaces pour transférer les capacités représentationnelles des VLMs à l'apprentissage 3D. Dans cet article, nous présentons OpenDlign, un nouveau modèle 3D ouvert utilisant des images générées par un modèle de diffusion et alignées en profondeur pour une alignment multimodale robuste. Ces images présentent une plus grande diversité texturale que les rendus CAD grâce à la nature stochastique du modèle de diffusion. En affinant le pipeline de projection des cartes de profondeur et en concevant des invites spécifiques à la profondeur, OpenDlign exploite les connaissances riches contenues dans les VLMs pré-entraînés pour l'apprentissage de représentations 3D avec un affinage simplifié. Nos expériences montrent qu'OpenDlign atteint des performances élevées en zéro-shot et en few-shot sur diverses tâches 3D, malgré un affinage limité à seulement 6 millions de paramètres sur un ensemble de données ShapeNet restreint. En classification zéro-shot, OpenDlign dépasse les modèles précédents de 8,0 % sur ModelNet40 et de 16,4 % sur OmniObject3D. De plus, l'utilisation d'images alignées en profondeur pour l'alignment multimodal améliore constamment les performances d'autres modèles d'avant-garde.Note : - "Vision-Language Models" est traduit par "modèles vision-langue" (VLMs).- "ShapeNet", "ModelNet40", et "OmniObject3D" sont conservés tels quels car ce sont des noms propres d'ensembles de données.- "depth-aligned images" est traduit par "images alignées en profondeur".- "few-shot performance" est traduit par "performance en few-shot".