1ヶ月前
Ego-R1: 超長時間エゴセントリック動画の推論におけるツール思考チェーン
Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu

要約
私たちは、数日から数週間にわたるエゴセントリック動画の推論を行う新しいフレームワークであるEgo-R1を紹介します。このフレームワークは、強化学習(RL)によって訓練されたEgo-R1エージェントが指揮する構造化されたツール思考チェーン(CoTT)プロセスを活用しています。人間の問題解決戦略に着想を得て、CoTTは複雑な推論をモジュール型のステップに分解し、RLエージェントが各ステップで特定のツールを呼び出して、時間的な検索や多モーダル理解などのサブ問いに反復かつ協調的に回答します。私たちは、事前学習済み言語モデルをCoTTデータを使用して教師あり微調整(SFT)し、その後RLによって訓練することで、エージェントが長距離推論のために段階的にツールを提案できるようにする二段階の学習パラダイムを設計しました。学習を容易にするために、SFT用のEgo-CoTT-25KとRL用のEgo-QA-4.4KからなるデータセットEgo-R1 Dataを作成しました。さらに、私たちのEgo-R1エージェントは、ハイブリッドソースから抽出した人間による確認済みQAペアを含む新規の一週間分の動画QAベンチマークであるEgo-R1 Benchで評価されました。広範な結果は、私たちのEgo-R1エージェントが動的かつツール補助付き思考チェーンによる推論により、超長期エゴセントリック動画の理解における固有の課題を効果的に解決できることを示しており、時間カバレッジが数時間から一週間へと大幅に拡大されました。