HyperAI超神经

Ego-R1:用于超长第一人称视频推理的工具链思维

Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
发布日期: 6/17/2025
Ego-R1:用于超长第一人称视频推理的工具链思维
摘要

我们介绍了一种名为Ego-R1的新框架,该框架利用由强化学习(RL)训练的Ego-R1代理所协调的结构化工具链思维(CoTT)过程,对超长(即持续数天至数周)的第一人称视频进行推理。受人类解决问题策略的启发,CoTT将复杂的推理任务分解为模块化的步骤,通过调用特定工具(每步一个),逐步协作回答涉及时间检索和多模态理解等任务的子问题。为了促进训练,我们设计了两阶段训练范式,首先使用CoTT数据对预训练语言模型进行监督微调(SFT),然后通过RL使我们的代理能够动态地提出适用于长距离推理的逐步骤工具。为了便于训练,我们构建了一个名为Ego-R1数据集的数据集,其中包括用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外,我们的Ego-R1代理在新整理的一周视频问答基准测试Ego-R1 Bench上进行了评估,该基准测试包含来自混合来源的人类验证问答对。大量实验结果表明,我们的Ego-R1代理通过动态、工具增强的链式思维推理方法,能够有效应对理解超长第一人称视频的独特挑战,并显著扩展了时间覆盖范围,从几小时延长到一周。