Command Palette
Search for a command to run...
ShapeLLM: 普遍的な3次元物体理解を実現した具現化インタラクション
ShapeLLM: 普遍的な3次元物体理解を実現した具現化インタラクション
Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma
概要
本論文では、ShapeLLMを紹介します。これは、3D点群と言語を用いて普遍的な3Dオブジェクト理解を探索し、具現化された相互作用のために設計された最初の3Dマルチモーダル大規模言語モデル(LLM)です。ShapeLLMは、多視点画像蒸留により幾何学的理解が向上したReConの改良版であるReCon++を基に構築されています。ReCon++をLLMの3D点群入力エンコーダとして利用することで、ShapeLLMは構築された指示追従データで訓練され、新たに人間によってキュレーションされたベンチマーク3D MM-Vetでテストされました。ReCon++とShapeLLMは、具現化視覚的グラウンディングなどの3D幾何学理解と言語統合3D相互作用タスクにおいて最先端の性能を達成しています。プロジェクトページ: https://qizekun.github.io/shapellm/