2ヶ月前

ShapeLLM: 普遍的な3次元物体理解を実現した具現化インタラクション

Qi, Zekun ; Dong, Runpei ; Zhang, Shaochen ; Geng, Haoran ; Han, Chunrui ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng
ShapeLLM: 普遍的な3次元物体理解を実現した具現化インタラクション
要約

本論文では、ShapeLLMを紹介します。これは、3D点群と言語を用いて普遍的な3Dオブジェクト理解を探索し、具現化された相互作用のために設計された最初の3Dマルチモーダル大規模言語モデル(LLM)です。ShapeLLMは、多視点画像蒸留により幾何学的理解が向上したReConの改良版であるReCon++を基に構築されています。ReCon++をLLMの3D点群入力エンコーダとして利用することで、ShapeLLMは構築された指示追従データで訓練され、新たに人間によってキュレーションされたベンチマーク3D MM-Vetでテストされました。ReCon++とShapeLLMは、具現化視覚的グラウンディングなどの3D幾何学理解と言語統合3D相互作用タスクにおいて最先端の性能を達成しています。プロジェクトページ: https://qizekun.github.io/shapellm/

ShapeLLM: 普遍的な3次元物体理解を実現した具現化インタラクション | 最新論文 | HyperAI超神経