HyperAIHyperAI
il y a 2 mois

ShapeLLM : Compréhension universelle des objets 3D pour l'interaction incarnée

Qi, Zekun ; Dong, Runpei ; Zhang, Shaochen ; Geng, Haoran ; Han, Chunrui ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng
ShapeLLM : Compréhension universelle des objets 3D pour l'interaction incarnée
Résumé

Ce document présente ShapeLLM, le premier modèle de langage multimodal 3D (LLM) conçu pour l'interaction incarnée, explorant une compréhension universelle des objets 3D à partir de nuages de points 3D et de langages. ShapeLLM est basé sur un encodeur 3D amélioré, qui étend ReCon à ReCon++, bénéficiant d'une distillation d'images multivues pour une meilleure compréhension de la géométrie. En utilisant ReCon++ comme encodeur d'entrée pour les nuages de points 3D dans les LLMs, ShapeLLM est formé sur des données construites pour suivre des instructions et testé sur notre nouveau benchmark curaté par des humains, 3D MM-Vet. ReCon++ et ShapeLLM atteignent des performances de pointe en matière de compréhension géométrique 3D et de tâches d'interaction 3D unifiées par le langage, telles que l'ancrage visuel incarné. Page du projet : https://qizekun.github.io/shapellm/