HyperAIHyperAI

Command Palette

Search for a command to run...

ShapeLLM : Compréhension universelle des objets 3D pour l'interaction incarnée

Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma

Résumé

Ce document présente ShapeLLM, le premier modèle de langage multimodal 3D (LLM) conçu pour l'interaction incarnée, explorant une compréhension universelle des objets 3D à partir de nuages de points 3D et de langages. ShapeLLM est basé sur un encodeur 3D amélioré, qui étend ReCon à ReCon++, bénéficiant d'une distillation d'images multivues pour une meilleure compréhension de la géométrie. En utilisant ReCon++ comme encodeur d'entrée pour les nuages de points 3D dans les LLMs, ShapeLLM est formé sur des données construites pour suivre des instructions et testé sur notre nouveau benchmark curaté par des humains, 3D MM-Vet. ReCon++ et ShapeLLM atteignent des performances de pointe en matière de compréhension géométrique 3D et de tâches d'interaction 3D unifiées par le langage, telles que l'ancrage visuel incarné. Page du projet : https://qizekun.github.io/shapellm/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ShapeLLM : Compréhension universelle des objets 3D pour l'interaction incarnée | Articles | HyperAI