Command Palette
Search for a command to run...

要約
視覚入力から空間的関係を捉える能力は、人間のような汎用的知能の基盤を成すものである。これまでの研究では、視覚言語モデル(VLM)の空間認識能力を高めるために、追加の専門エンコーダを導入するアプローチが試みられてきたが、これにより計算負荷が増加し、一般化能力を損なう傾向にあった。汎用アーキテクチャにおいて空間的能力を強化するため、本研究では、空間的知覚から空間的推論に至るまで、人間のような視覚空間的能力をVLMに育成するための包括的フレームワーク「Visual Spatial Tuning(VST)」を提案する。まず、VST-Pと名付けた大規模なデータセットを構築し、単一視点、複数画像、動画の3つのモードにまたがる19のスキルをカバーする410万件のサンプルを収集することで、VLMの空間的知覚能力を向上させることに挑戦した。次に、空間的推論を促すための13.5万件のサンプルから構成される、精選されたデータセットVST-Rを提示する。特に、段階的な学習パイプラインを採用し、初期段階では教師あり微調整により空間的知識の基盤を構築し、その後、強化学習を用いて空間的推論能力をさらに高める。本手法は一般化能力に悪影響を及ぼさず、MMSI-Benchで34.8%、VSIBenchで61.2%という、複数の空間的ベンチマークにおいてSOTA(最新の最良性能)を達成した。本研究の結果から、視覚-言語-行動モデルは、提案する空間的チューニング手法によって顕著に性能向上が可能であることが示され、物理的根拠を有するAIの実現に向けた道筋が示された。