HyperAIHyperAI

Command Palette

Search for a command to run...

Ego-R1: 超長時間エゴセントリック動画の推論におけるツール思考チェーン

Shulin Tian Ruiqi Wang Hongming Guo Penghao Wu Yuhao Dong Xiuying Wang Jingkang Yang Hao Zhang Hongyuan Zhu Ziwei Liu

概要

私たちは、数日から数週間にわたるエゴセントリック動画の推論を行う新しいフレームワークであるEgo-R1を紹介します。このフレームワークは、強化学習(RL)によって訓練されたEgo-R1エージェントが指揮する構造化されたツール思考チェーン(CoTT)プロセスを活用しています。人間の問題解決戦略に着想を得て、CoTTは複雑な推論をモジュール型のステップに分解し、RLエージェントが各ステップで特定のツールを呼び出して、時間的な検索や多モーダル理解などのサブ問いに反復かつ協調的に回答します。私たちは、事前学習済み言語モデルをCoTTデータを使用して教師あり微調整(SFT)し、その後RLによって訓練することで、エージェントが長距離推論のために段階的にツールを提案できるようにする二段階の学習パラダイムを設計しました。学習を容易にするために、SFT用のEgo-CoTT-25KとRL用のEgo-QA-4.4KからなるデータセットEgo-R1 Dataを作成しました。さらに、私たちのEgo-R1エージェントは、ハイブリッドソースから抽出した人間による確認済みQAペアを含む新規の一週間分の動画QAベンチマークであるEgo-R1 Benchで評価されました。広範な結果は、私たちのEgo-R1エージェントが動的かつツール補助付き思考チェーンによる推論により、超長期エゴセントリック動画の理解における固有の課題を効果的に解決できることを示しており、時間カバレッジが数時間から一週間へと大幅に拡大されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Ego-R1: 超長時間エゴセントリック動画の推論におけるツール思考チェーン | 記事 | HyperAI超神経