
摘要
长视频理解是计算机视觉领域的一项重大挑战,要求模型具备对长时序多模态序列进行推理的能力。受人类认知过程启发,我们强调在长视频理解中交互式推理与规划的重要性,而非单纯依赖处理冗长视觉输入的能力。为此,我们提出一种新型基于智能体(agent)的系统——VideoAgent,该系统以大型语言模型为核心智能体,通过迭代方式识别并整合关键信息以回答问题,同时利用视觉-语言基础模型作为工具,实现视觉信息的翻译与检索。在具有挑战性的EgoSchema和NExT-QA基准测试中,VideoAgent分别实现了54.1%和71.3%的零样本准确率,且平均仅需8.4帧和8.2帧输入。实验结果表明,该方法在性能与效率方面均显著优于当前最先进的技术,充分展现了基于智能体范式在推动长视频理解发展方面的巨大潜力。