2ヶ月前

3D-LLM: 大規模言語モデルに3D世界を注入する

Hong, Yining ; Zhen, Haoyu ; Chen, Peihao ; Zheng, Shuhong ; Du, Yilun ; Chen, Zhenfang ; Gan, Chuang
3D-LLM: 大規模言語モデルに3D世界を注入する
要約

大規模言語モデル(LLMs)とビジョン・言語モデル(VLMs)は、常識的な推論など複数のタスクで優れた性能を示すことが証明されています。これらのモデルが強力である一方で、3次元物理世界に根ざしていないという問題があります。3次元物理世界には、空間関係、操作可能性、物理学、レイアウトなどのより豊かな概念が含まれています。本研究では、大規模言語モデルに3次元世界を取り入れることを提案し、全新的な3D-LLMファミリーを導入します。具体的には、3D-LLMsは3次元点群データとその特徴を入力として受け取り、キャプショニング、密集キャプショニング、3D質問応答、タスク分解、3D位置付け、3D支援対話、ナビゲーションなど多様な3D関連タスクを実行できます。我々が設計した3種類のプロンプトメカニズムを使用することで、これらのタスクをカバーする約30万件の3D-言語データを集めることができました。効率的に3D-LLMsを訓練するために、まずマルチビュー画像から3次元特徴を抽出するための3D特徴抽出器を利用します。その後、2D VLMsをバックボーンとして使用して我々の3D-LLMsを訓練します。さらに、3次元位置決めメカニズムを導入することで、3D-LLMsはより良い3次元空間情報を捉えることができます。ScanQAでの実験結果は、我々のモデルが最新の基準モデルよりも大幅に優れていることを示しています(例:BLEU-1スコアは最新のスコアを超えて9%向上)。また、自作データセットにおける3Dキャプショニング、タスク構成化および3D支援対話に関する実験でも、我々のモデルが2D VLMsよりも優れていることが確認されました。定性的な例も示しており、我々のモデルは既存のLLMsやVLMsの範囲を超えたより多くのタスクを遂行できる可能性があることを示しています。プロジェクトページ: https://vis-www.cs.umass.edu/3dllm/.