3ヶ月前

マルチモーダル

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

概要

本稿では、RGB点群と自然言語プロンプトを入力として、部分レベルのバウンディングボックス、意味的記述、編集コマンドを含む一貫性のあるトークン列を自己回帰的に生成する、ネイティブな3Dマルチモーダル大規模言語モデル「Part-X-MLLM」を紹介する。このモデルは、多様な3Dタスクを構造的で実行可能な文法に基づくプログラムとして統一的に定式化することで、部分ベースの生成および編集に適した幾何学的認識モジュールを制御する汎用的なインターフェースを提供する。記号的計画（symbolic planning）と幾何的合成（geometric synthesis）を分離することにより、本アプローチは、単一の言語ネイティブなフロントエンドを介して、互換性のある任意の幾何エンジンを制御可能にする。本モデルは、構造と意味、指示の分離を図るための二重エンコーダアーキテクチャを事前学習し、大規模な部分中心のデータセット上で指示微調整（instruction-tuning）を実施した。実験の結果、本モデルは高品質で構造化された計画を生成する能力に優れ、一元的なインターフェースを通じて、文脈に即した質問応答（grounded Q&A）、構成的生成（compositional generation）、局所的編集（localized editing）において、最先端の性能を達成することが示された。プロジェクトページ：https://chunshi.wang/Part-X-MLLM/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

マルチモーダル

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

概要

本稿では、RGB点群と自然言語プロンプトを入力として、部分レベルのバウンディングボックス、意味的記述、編集コマンドを含む一貫性のあるトークン列を自己回帰的に生成する、ネイティブな3Dマルチモーダル大規模言語モデル「Part-X-MLLM」を紹介する。このモデルは、多様な3Dタスクを構造的で実行可能な文法に基づくプログラムとして統一的に定式化することで、部分ベースの生成および編集に適した幾何学的認識モジュールを制御する汎用的なインターフェースを提供する。記号的計画（symbolic planning）と幾何的合成（geometric synthesis）を分離することにより、本アプローチは、単一の言語ネイティブなフロントエンドを介して、互換性のある任意の幾何エンジンを制御可能にする。本モデルは、構造と意味、指示の分離を図るための二重エンコーダアーキテクチャを事前学習し、大規模な部分中心のデータセット上で指示微調整（instruction-tuning）を実施した。実験の結果、本モデルは高品質で構造化された計画を生成する能力に優れ、一元的なインターフェースを通じて、文脈に即した質問応答（grounded Q&A）、構成的生成（compositional generation）、局所的編集（localized editing）において、最先端の性能を達成することが示された。プロジェクトページ：https://chunshi.wang/Part-X-MLLM/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Part-X-MLLM：部位認識型3Dマルチモーダル大規模言語モデル | 記事 | HyperAI超神経