HyperAIHyperAI

Command Palette

Search for a command to run...

4D-RGPT:知覚蒸留を活用した領域レベルにおける4D理解への道標

Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen

Abstract

マルチモーダル大規模言語モデル(MLLM)の進展にもかかわらず、3次元構造および時間的ダイナミクスに関する推論能力は、4次元的知覚と時間的理解の不足により依然として制限されている。既存の3次元および4次元動画質問応答(VQA)ベンチマークは、静止シーンに偏っており、領域レベルのプロンプト機能を欠いている。本研究では、以下の3つの貢献を通じてこれらの課題に取り組む。まず、(a) 動画入力から4次元表現を高精度に捉えることを目的とした専用MLLM「4D-RGPT」を提案する。このモデルは、時間的知覚能力を強化することで、4次元的構造の理解を向上させる。次に、(b) 「Perceptual 4D Distillation(P4D)」と呼ばれる訓練フレームワークを導入し、固定された専門モデルから4次元表現を転移することで、4D-RGPTに包括的な4次元的知覚能力を付与する。さらに、(c) 領域レベルのプロンプトを備えた深度認識型動的シーンを評価可能な「R4D-Bench」というベンチマークを、自動化と人間による検証を組み合わせたハイブリッドパイプラインにより構築する。実験結果から、4D-RGPTは既存の4次元VQAベンチマークおよび本研究で提案するR4D-Benchにおいて、顕著な性能向上を達成した。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
4D-RGPT:知覚蒸留を活用した領域レベルにおける4D理解への道標 | Papers | HyperAI超神経