Command Palette
Search for a command to run...
3D-R1:3D VLMにおける推論能力の向上による統一的シーン理解の実現
3D-R1:3D VLMにおける推論能力の向上による統一的シーン理解の実現
Ting Huang Zeyu Zhang Hao Tang
概要
大規模な視覚言語モデル(VLM)は、2次元の視覚理解タスクにおいて顕著な進展を遂げており、これらの能力を3次元シーン理解へと拡張する関心が高まっている。しかし、現行の3次元VLMは、高品質な空間データの不足や視点仮定の静的特性といった制約により、堅牢な推論能力と汎化能力に課題を抱えている。こうした課題に対処するため、本研究では3次元VLMの推論能力を強化する基盤モデル「3D-R1」を提案する。具体的には、既存の3次元VLデータセットとGemini 2.5 Proを基盤とするデータエンジンを活用し、Chain-of-Thought(CoT)を搭載した高品質な合成データセット「Scene-30K」を構築する。このデータセットは、3D-R1の冷スタート初期化データとして機能する。さらに、強化学習の訓練プロセスにおいて、GRPOなどのRLHFポリシーを活用し、推論能力を向上させる。また、検出精度と回答の意味的正確性を維持するため、3つの報酬関数を導入する:感覚的報酬、意味的類似度報酬、フォーマット報酬。さらに、3次元シーン理解に最も情報量の多い視点を動的に選択する戦略を導入している。広範な実験により、3D-R1が様々な3次元シーンベンチマークにおいて平均10%の性能向上を達成したことが示され、3次元シーン理解における推論力と汎化能力の向上の有効性が確認された。コード:https://github.com/AIGeeksGroup/3D-R1。ウェブサイト:https://aigeeksgroup.github.io/3D-R1。