2ヶ月前

視覚質問応答

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

概要

マルチモーダル大規模言語モデル（MLLM）の進展にもかかわらず、3次元構造および時間的ダイナミクスに関する推論能力は、4次元的知覚と時間的理解の不足により依然として制限されている。既存の3次元および4次元動画質問応答（VQA）ベンチマークは、静止シーンに偏っており、領域レベルのプロンプト機能を欠いている。本研究では、以下の3つの貢献を通じてこれらの課題に取り組む。まず、(a) 動画入力から4次元表現を高精度に捉えることを目的とした専用MLLM「4D-RGPT」を提案する。このモデルは、時間的知覚能力を強化することで、4次元的構造の理解を向上させる。次に、(b) 「Perceptual 4D Distillation（P4D）」と呼ばれる訓練フレームワークを導入し、固定された専門モデルから4次元表現を転移することで、4D-RGPTに包括的な4次元的知覚能力を付与する。さらに、(c) 領域レベルのプロンプトを備えた深度認識型動的シーンを評価可能な「R4D-Bench」というベンチマークを、自動化と人間による検証を組み合わせたハイブリッドパイプラインにより構築する。実験結果から、4D-RGPTは既存の4次元VQAベンチマークおよび本研究で提案するR4D-Benchにおいて、顕著な性能向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

視覚質問応答

マルチモーダル表現

ビデオ処理

マルチモーダル

コンピュータビジョン

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

概要

マルチモーダル大規模言語モデル（MLLM）の進展にもかかわらず、3次元構造および時間的ダイナミクスに関する推論能力は、4次元的知覚と時間的理解の不足により依然として制限されている。既存の3次元および4次元動画質問応答（VQA）ベンチマークは、静止シーンに偏っており、領域レベルのプロンプト機能を欠いている。本研究では、以下の3つの貢献を通じてこれらの課題に取り組む。まず、(a) 動画入力から4次元表現を高精度に捉えることを目的とした専用MLLM「4D-RGPT」を提案する。このモデルは、時間的知覚能力を強化することで、4次元的構造の理解を向上させる。次に、(b) 「Perceptual 4D Distillation（P4D）」と呼ばれる訓練フレームワークを導入し、固定された専門モデルから4次元表現を転移することで、4D-RGPTに包括的な4次元的知覚能力を付与する。さらに、(c) 領域レベルのプロンプトを備えた深度認識型動的シーンを評価可能な「R4D-Bench」というベンチマークを、自動化と人間による検証を組み合わせたハイブリッドパイプラインにより構築する。実験結果から、4D-RGPTは既存の4次元VQAベンチマークおよび本研究で提案するR4D-Benchにおいて、顕著な性能向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4D-RGPT：知覚蒸留を活用した領域レベルにおける4D理解への道標 | 記事 | HyperAI超神経