Command Palette
Search for a command to run...
4D-RGPT:知覚蒸留を活用した領域レベルにおける4D理解への道標
4D-RGPT:知覚蒸留を活用した領域レベルにおける4D理解への道標
Chiao-An Yang Ryo Hachiuma Sifei Liu Subhashree Radhakrishnan Raymond A. Yeh Yu-Chiang Frank Wang Min-Hung Chen
Abstract
マルチモーダル大規模言語モデル(MLLM)の進展にもかかわらず、3次元構造および時間的ダイナミクスに関する推論能力は、4次元的知覚と時間的理解の不足により依然として制限されている。既存の3次元および4次元動画質問応答(VQA)ベンチマークは、静止シーンに偏っており、領域レベルのプロンプト機能を欠いている。本研究では、以下の3つの貢献を通じてこれらの課題に取り組む。まず、(a) 動画入力から4次元表現を高精度に捉えることを目的とした専用MLLM「4D-RGPT」を提案する。このモデルは、時間的知覚能力を強化することで、4次元的構造の理解を向上させる。次に、(b) 「Perceptual 4D Distillation(P4D)」と呼ばれる訓練フレームワークを導入し、固定された専門モデルから4次元表現を転移することで、4D-RGPTに包括的な4次元的知覚能力を付与する。さらに、(c) 領域レベルのプロンプトを備えた深度認識型動的シーンを評価可能な「R4D-Bench」というベンチマークを、自動化と人間による検証を組み合わせたハイブリッドパイプラインにより構築する。実験結果から、4D-RGPTは既存の4次元VQAベンチマークおよび本研究で提案するR4D-Benchにおいて、顕著な性能向上を達成した。