Command Palette
Search for a command to run...

要約
大多数の動画推論モデルは、テキスト形式の推論プロセスを生成するにとどまり、重要な証拠がいつ・どこに現れるかを明示していません。近年、OpenAI-o3などのモデルが画像における証拠中心型推論に広範な関心を呼び起こしましたが、これを動画に拡張することはより困難であり、動的なシーンにおいて時系列的な追跡と空間的な局所化を統合的に処理する必要があるからです。本研究では、明示的な時空間的証拠を動画推論に統合する非エージェント型フレームワーク「Open-o3 Video」を提案します。また、上記の課題に対処するため、訓練データを丁寧に収集し、訓練戦略を設計しました。本モデルは、回答とともに重要な時刻(タイムスタンプ)、対象オブジェクト、およびバウンディングボックスを強調表示することで、推論を具体的な視覚的観察に基づかせる仕組みを実現しています。この機能を実現するため、まず、SFT(Supervised Fine-Tuning)用にSTGR-CoT-30k、RL(Reinforcement Learning)用にSTGR-RL-36kという2つの高品質なデータセットを構築しました。これらのデータセットには、正確に設計された時系列的・空間的ラベルが付与されており、既存の多くは動画全体の時系列範囲や画像上の空間的バウンディングボックスのいずれかしか提供しておらず、統一された時空間的監視情報と推論トレースが不足しているという課題を補うものです。次に、回答の正確性、時系列の整合性、空間的精度を同時に促進する複数の特別に設計された報酬関数を用いた「コールドスタート型強化学習」戦略を採用しました。V-STARベンチマークにおいて、Open-o3 Videoは最先端の性能を達成し、Qwen2.5-VLベースラインに対してmAMを14.4%、mLGMを24.2%向上させました。また、VideoMME、WorldSense、VideoMMMU、TVGBenchなど、幅広い動画理解ベンチマークでも一貫した性能向上が確認されました。精度の向上に加え、Open-o3 Videoが生成する推論トレースは、テスト時スケーリング(test-time scaling)に有用な信号を提供し、信頼度を意識した検証を可能にし、回答の信頼性を向上させる効果も示されています。