HyperAI超神经

MR. Video:“MapReduce”是长视频理解的原则

Ziqi Pang, Yu-Xiong Wang
发布日期: 4/23/2025
MR. Video:“MapReduce”是长视频理解的原则
摘要

我们提出了一种名为MR. Video的长视频理解框架,该框架展示了MapReduce原理在处理长视频时的简单而有效的应用:(1) Map:独立且密集地感知短视频片段;(2) Reduce:从所有片段中联合聚合信息。与序列到序列的视觉语言模型(VLMs)相比,MR. Video能够进行详细的短视频感知,而不受上下文长度的限制。与现有的通常依赖于顺序关键片段选择的视频代理相比,Map操作使得短视频片段的序列并行感知更加简单和可扩展。其Reduce步骤允许更全面的上下文聚合和推理,超越了显式的关键片段检索。这种MapReduce原理既适用于VLMs也适用于视频代理,我们使用大型语言模型(LLM)代理来验证其有效性。 在实际应用中,MR. Video采用两个MapReduce阶段:(A) 标题生成:为短视频片段生成标题(map),然后将重复出现的角色和物体标准化为共享名称(reduce);(B) 分析:对于每个用户问题,从各个独立的短视频中分析相关信息(map),并将这些信息整合到最终答案中(reduce)。在具有挑战性的LVBench数据集上,MR. Video相较于最先进的VLMs和视频代理实现了超过10%的准确率提升。 代码可在以下链接获取:https://github.com/ziqipang/MR-Video