Command Palette
Search for a command to run...
Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

要約
本稿では、RGB点群と自然言語プロンプトを入力として、部分レベルのバウンディングボックス、意味的記述、編集コマンドを含む一貫性のあるトークン列を自己回帰的に生成する、ネイティブな3Dマルチモーダル大規模言語モデル「Part-X-MLLM」を紹介する。このモデルは、多様な3Dタスクを構造的で実行可能な文法に基づくプログラムとして統一的に定式化することで、部分ベースの生成および編集に適した幾何学的認識モジュールを制御する汎用的なインターフェースを提供する。記号的計画(symbolic planning)と幾何的合成(geometric synthesis)を分離することにより、本アプローチは、単一の言語ネイティブなフロントエンドを介して、互換性のある任意の幾何エンジンを制御可能にする。本モデルは、構造と意味、指示の分離を図るための二重エンコーダアーキテクチャを事前学習し、大規模な部分中心のデータセット上で指示微調整(instruction-tuning)を実施した。実験の結果、本モデルは高品質で構造化された計画を生成する能力に優れ、一元的なインターフェースを通じて、文脈に即した質問応答(grounded Q&A)、構成的生成(compositional generation)、局所的編集(localized editing)において、最先端の性能を達成することが示された。プロジェクトページ:https://chunshi.wang/Part-X-MLLM/