4時間前

概要

マルチモーダル大規模言語モデル（MLLM）は顕著な意味理解能力を示す一方で、空間的盲目性に陥りやすく、微細な幾何学的推論や物理的動態の理解に課題を抱えています。既存のアプローチは通常、明示的な 3D モダリティや複雑な幾何学的足場構築に依存しており、データ不足や汎化の困難さによって制限されています。本研究では、大規模な動画生成モデル内に内在する暗黙的な空間事前知識を活用することにより、パラダイムシフトを提案します。我々は、時間的に整合性のある動画を合成するために、これらのモデルが本質的に頑健な 3D 構造事前知識および物理法則を学習していると仮定します。そこで、VEGA-3D（Video Extracted Generative Awareness）と呼ばれるプラグアンドプレイ型のフレームワークを導入し、事前学習済みの動画 Diffusion モデルを Latent World Simulator として再構成します。中間ノイズレベルから時空特徴を抽出し、トークンレベルの適応的ゲート融合メカニズムを介して意味表現と統合することで、明示的な 3D 教師信号なしに MLLM に高密度な幾何学的手がかりを付与します。3D シーン理解、空間推論、および具身操作に関する広範なベンチマーク実験により、本手法が最先端のベースラインを上回る性能を示すことが実証されました。これは、生成事前知識が物理世界理解のためのスケーラブルな基盤を提供することを裏付けるものです。コードは https://github.com/H-EmbodVis/VEGA-3D で公開されています。

ソースPDF コードを表示