Command Palette

Search for a command to run...

7日前

Part-X-MLLM:部位認識型3Dマルチモーダル大規模言語モデル

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Part-X-MLLM:部位認識型3Dマルチモーダル大規模言語モデル

要約

本稿では、RGB点群と自然言語プロンプトを入力として、部分レベルのバウンディングボックス、意味的記述、編集コマンドを含む一貫性のあるトークン列を自己回帰的に生成する、ネイティブな3Dマルチモーダル大規模言語モデル「Part-X-MLLM」を紹介する。このモデルは、多様な3Dタスクを構造的で実行可能な文法に基づくプログラムとして統一的に定式化することで、部分ベースの生成および編集に適した幾何学的認識モジュールを制御する汎用的なインターフェースを提供する。記号的計画(symbolic planning)と幾何的合成(geometric synthesis)を分離することにより、本アプローチは、単一の言語ネイティブなフロントエンドを介して、互換性のある任意の幾何エンジンを制御可能にする。本モデルは、構造と意味、指示の分離を図るための二重エンコーダアーキテクチャを事前学習し、大規模な部分中心のデータセット上で指示微調整(instruction-tuning)を実施した。実験の結果、本モデルは高品質で構造化された計画を生成する能力に優れ、一元的なインターフェースを通じて、文脈に即した質問応答(grounded Q&A)、構成的生成(compositional generation)、局所的編集(localized editing)において、最先端の性能を達成することが示された。プロジェクトページ:https://chunshi.wang/Part-X-MLLM/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Part-X-MLLM:部位認識型3Dマルチモーダル大規模言語モデル | 論文 | HyperAI超神経