Command Palette
Search for a command to run...
空間的SSRL:自己教師付き強化学習を活用した空間理解の向上
空間的SSRL:自己教師付き強化学習を活用した空間理解の向上
Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang
概要
空間理解は、大規模視覚言語モデル(LVLM)における依然としての課題である。従来の教師あり微調整(SFT)や最近の検証可能な報酬を用いた強化学習(RLVR)パイプラインは、高コストな教師データや専用ツール、制約された環境に依存しており、スケーラビリティに限界がある。本研究では、通常のRGBまたはRGB-D画像から直接検証可能な信号を抽出する自己教師型強化学習(SSRL)フレームワーク「Spatial-SSRL」を提案する。Spatial-SSRLは、2次元および3次元空間構造を捉える5つの事前学習タスクを自動的に設計する。これらは、パッチのシャッフル再配置、反転パッチの識別、クロップされたパッチの補完、領域間の深度順序推定、相対的な3次元位置予測である。これらのタスクは、人間やLVLMによるアノテーションを必要とせず、検証が容易な真のラベルを提供する。本研究のタスクによる学習により、空間推論能力が顕著に向上しつつも、一般的な視覚能力は維持される。画像および動画の両設定において7つの空間理解ベンチマークで、Spatial-SSRLはQwen2.5-VLベースラインに対して、3Bモデルで平均4.63%、7Bモデルで平均3.89%の精度向上を達成した。本研究の結果から、シンプルかつ内在的な教師信号によって、大規模なRLVRが実現可能であり、LVLMにおけるより強力な空間知能への実用的な道筋が示された。