HyperAIHyperAI

Command Palette

Search for a command to run...

VideoKR:迈向知识与推理密集型的视频理解

Lin Fu Zheyuan Yang Yang Wang Tingyu Song Arman Cohan Yilun Zhao

摘要

我们提出VideoKR,这是首个专门设计用于强化知识与推理密集型视频理解的大规模训练语料库。该语料库包含31.5万个视频推理示例,涵盖14.5万个新采集的、采用CC许可的专家领域视频。我们开发了一种人在回路、技能导向的示例生成流水线,旨在逐步提升视频推理能力,同时确保示例及其CoT推理依据的难度、多样性与可靠性。我们还构建了VideoKR-Eval,这是一个全新的专家标注基准,其中的问题要求模型具备真实的视频理解能力与知识密集型推理能力,而非依赖文本捷径。实验结果表明,在标准的SFTrightarrowGRPO流水线下,基于VideoKR进行后训练的模型在知识密集型视频推理任务上优于以往的后训练方法,同时在通用视频推理任务上仍保持竞争力。这凸显了数据设计是推动视频推理进展的关键因素。我们进一步开展了全面的消融实验,以独立评估VideoKR的具体贡献,从而为后续研究提供具有实践指导意义的见解。

一句话总结

VideoKR 引入了一个包含 31.5 万个示例的语料库,该语料库源自 14.5 万个 CC 许可的专家领域视频,并采用了一种人机协同的技能导向型生成流水线。该流水线确保了可靠的思维链推理依据,使得通过 SFT 到 GRPO 流水线进行后训练的模型在知识密集型推理任务上优于现有方法,同时在通用任务上保持竞争力,这一点已通过专家标注的 VideoKR-Eval 基准验证。

核心贡献

  • 本研究引入了 VideoKR,这是一个包含 31.5 万个视频推理示例的大规模训练语料库,由新收集的 14.5 万个覆盖 82 个专业领域的 CC 许可视频生成。
  • 一种技能导向型示例生成流水线将视频理解分解为三种互补能力,并采用人机协同验证机制,确保与思维链推理依据配对的示例在难度、多样性和可靠性方面符合要求。
  • VideoKR-Eval 是一个新构建的专家标注基准,旨在防止文本捷径问题。实验表明,在该语料库上进行后训练的模型在知识密集型视频推理任务上优于现有方法。

引言

视频理解的多模态基础模型发展迅速,但在从基础视觉感知过渡到需要领域专业知识和多步推理的复杂推理任务时仍受限制。现有的训练数据集主要侧重于表层感知和日常活动,导致模型在处理专业领域、基于科学原理的解释或不可观测原则时能力不足。为弥补这一空白,作者提出了 VideoKR,这是首个专为知识与推理密集型视频理解设计的大规模语料库。他们整理了覆盖 82 个领域的 14.5 万个专业来源视频,并部署了一种技能导向型问答框架,将推理过程分解为三个核心能力,并为每个示例配对其高质量思维链推理依据。通过同时提供监督微调与强化学习数据集以及经过严格筛选的评估基准,作者证明了在 VideoKR 上进行标准后训练无需复杂的奖励工程即可显著优于现有方法。

数据集

  • 数据集构成与来源

    • 作者引入了 VideoKR,这是一个包含 315,537 个视频推理示例的大规模训练语料库,源自新收集的 14.5 万个视频。
    • 所有源视频均采用 CC 许可,并通过 YouTube Data API 检索,聚焦于自然科学、医疗健康、人文社科及工程学等 82 个本科科目下的专家领域场景。
    • 该语料库通过四层领域知识库(科目、课程、讲座和知识点)进行组织,包含 63,745 个经过验证的知识点,以指导视频检索与问题生成。
  • 子集详情

    • VideoKR-SFT-201K:包含 20.1 万个用于监督微调的示例。每个条目均包含问题、答案选项及经过验证的思维链推理依据。
    • VideoKR-RL-114K:包含 11.4 万个保留用于带可验证奖励的强化学习的示例。这些条目仅保留问题和最终答案,以便策略模型在优化过程中生成自身的推理轨迹。
    • VideoKR-Eval:一个包含 2,000 个示例的基准测试,通过对 VideoMMMU、MMVU 和 SciVideoBench 中的样本进行筛选和重新标注构建而成。它保留了 1,254 个需要连续视频理解的原始示例,并增加了 746 个基于视觉证据的专家重新标注问题。
  • 训练用途与处理

    • 作者对完整数据集进行随机划分,同时保留视频级分组以创建 SFT 和 RLVR 划分集。
    • 模型采用标准 SFT 后接 GRPO 流水线进行后训练。SFT 阶段从 20.1 万示例中学习结构化推理,而 RL 阶段使用 11.4 万子集针对可验证答案进行优化。
    • 示例生成遵循技能导向框架,针对三种能力:基础视频推理、知识增强型视频感知和知识密集型视频推理。问题格式化为多项选择或开放式提示,以支持可验证的 RLVR 监督。
  • 过滤、裁剪与元数据构建

    • 时长超过 30 分钟的视频被排除,以符合模型上下文限制。
    • 作者应用多阶段过滤流水线,通过 Azure AI 审核移除不安全内容,利用文本元数据和视觉多模态大语言模型评估筛选相关性,并通过丢弃任何仅凭文本加单帧即可解答的示例来强制执行严格的视频依赖。
    • 推理轨迹经过自洽性验证和独立的多模态大语言模型验证,以确保每一步均基于可观察证据或标准领域知识。
    • 为防止评估数据泄露,语料库通过 YouTube ID 匹配以及在 20 秒视频窗口上使用感知哈希进行近重复检测进行清洗。
    • 所有合成步骤均通过人机协同协议进行审计,该协议根据严格的错误率阈值从七个前沿模型池中动态选择。

方法

作者利用结构化多阶段流水线构建 VideoKR 数据集,该数据集旨在支持知识与推理密集型视频理解。框架始于领域知识库构建,在 82 个科目和四个学科下整理出 63,745 个知识点,为定向视频收集奠定基础。每个知识点用于生成搜索关键词,进而从大型视频库中检索带有字幕的视频。检索到的视频随后根据与目标场景的相关性进行过滤,确保与底层知识领域保持一致。

如图所示,流程随后进入技能导向型示例生成阶段,在此定义基础视频感知与推理等核心技能。专家标注员使用包含视频输入、问题和正确答案的结构化模板生成种子示例。这些示例用于训练模型生成新的基于视频的问题与答案。生成的示例随后经过质量检查流程,包括自洽性检查、视频依赖过滤和 CoT 推理依据验证,以确保输出高质量且逻辑严密。最终数据集被划分为 SFT-201K 和 RL-114K 子集,其中 RL 子集用于强化学习。

数据质量控制通过人工验证的模型选择来实施,在每一步骤中,每个模型采样 100 个示例并由专家评估以确保符合质量标准。该流程包含数据污染缓解策略,例如 YouTube ID 过滤以及通过帧哈希和序列匹配进行的近重复视频过滤。最终数据集包含 85,934 个用于 SFT 的视频和 59,625 个用于 RL 的视频,平均长度分别为 339 秒和 351.6 秒。该数据集的进一步特征包括多项选择与开放式问题的分布,以及包含知识点的视频比例及其各自的推理依据长度。

在后训练阶段,作者采用标准监督微调(SFT)后接 GRPO(广义强化策略优化)流水线。使用的基座模型为 Qwen2.5-VL-7B-Instruct 和 Qwen3-VL-8B-Instruct,在 VideoKR-SFT-201K 数据集上进行一个 epoch 的 SFT。生成的 SFT 检查点随后用于在 VideoKR-RL-114K 数据集上运行一个 epoch 的 GRPO。针对 Qwen3-VL-8B-Instruct,还评估了一种 Zero-RL 训练方法,即直接将 GRPO 应用于 RL 数据集。训练配置使用 32 的批次大小,最大视频 token 数量为 4,096,最大帧数为 128。GRPO 奖励函数结合格式奖励与准确率奖励,定义为 R=0.1Rf+0.9RaR = 0.1 \cdot R_f + 0.9 \cdot R_aR=0.1Rf+0.9Ra,其中若输出满足所需格式则 RfR_fRf 为 1.0,而 RaR_aRa 在开放式问答中使用 ROUGE,在多项选择题中使用精确匹配。训练在最多 8 张 NVIDIA A800 GPU 上进行,SFT 的学习率为 1×1051 \times 10^{-5}1×105,RL 的学习率为 5×1065 \times 10^{-6}5×106,使用 AdamW 进行优化。最大响应长度设置为 2,048 tokens,GRPO rollout 生成使用 rollout 大小为 8 和温度 1.0,KL 惩罚系数为 0.01。

实验

评估在通用与知识密集型视频推理基准上采用标准化协议,通过缓解先前的提示词不对齐问题来确保公平比较。主实验验证了在 VideoKR 上进行后训练能持续提升模型能力,尤其是在结合监督微调与强化学习时,而消融实验证实整合多样化推理技能与思维链监督对实现高级性能至关重要。帧缩放与定性分析进一步表明,模型能有效利用更丰富的时序证据,并展现出更深层次、以洞察驱动的推理模式。最终,结果凸显 VideoKR 超越了现有语料库,通过提供足够具有挑战性的数据分布,推动了超出饱和基准所能提供的实质性能力提升。

作者在视频推理基准上评估了后训练模型,重点关注使用 VideoKR 数据训练带来的改进。结果表明,在 VideoKR 上进行后训练提升了性能,尤其在知识密集型任务上,且在不同模型规模和训练配置中均观察到增益。采用监督微调与强化学习联合训练的模型提升最为显著,且该优势在不同输入帧数下保持一致。在 VideoKR 上进行后训练持续提升模型性能,尤其在知识密集型视频推理任务上。同时使用监督微调与强化学习训练的模型性能高于仅使用单一方法的模型。VideoKR 训练的优势在不同输入帧预算下保持一致,表明其对推理时帧缩放具有鲁棒性。

作者在视频推理基准上对比了多个模型,重点关注在不同后训练语料库上训练的模型之间的性能差异。结果表明,在 VideoKR 上训练的模型持续优于其他模型,尤其在知识密集型任务上,且结合监督微调与强化学习时增益更为明显。性能随输入帧数增加而提升,表明更丰富的视觉与上下文时序信息具有益处。在 VideoKR 上训练的模型性能高于在其他语料库上训练的模型,尤其在知识密集型基准上。结合监督微调与强化学习的效果优于单一方法。性能随输入帧数增加而提升,表明更丰富的视觉与上下文时序信息能增强推理能力。

作者通过在不同通用与知识密集型视频推理基准上对比后训练模型与基线模型,评估了 VideoKR 数据集的有效性。结果表明,使用 VideoKR 进行后训练持续提升模型性能,尤其在知识密集型任务上,且模型在推理阶段增加输入帧数时获益。该数据集整合领域知识与结构化推理的设计,使其相比先前语料库带来更强的性能增益。在 VideoKR 上进行后训练提升了所有基准上的模型性能,其中知识密集型任务增益最为显著。在推理过程中增加输入帧数持续提升了基座模型与后训练模型的准确率。包含专家验证示例与结构化推理的 VideoKR 数据集在后训练实验中优于先前开源语料库。

作者在视频推理基准上评估了后训练模型的性能,重点关注通用与知识密集型任务。结果表明,增加输入帧数持续提升了基座模型与后训练模型的准确率,在 128 帧时达到最佳性能。后训练的 Qwen3-VL-8B-Instruct 模型在知识密集型基准上取得最高分数,优于同类其他模型。增加输入帧数在所有模型与基准上均带来一致的性能提升。后训练的 Qwen3-VL-8B-Instruct 模型在知识密集型视频推理基准上取得最高分。在 VideoKR 上进行后训练提升了模型性能,其中知识密集型任务的增益最为明显。

作者在一系列视频推理基准上对比了多个模型,涵盖通用与知识密集型任务。结果表明,在 VideoKR 数据集上训练的模型在知识密集型基准上取得更高性能,尤其在 VideoKR-Eval 任务上,这表明后训练提升了推理能力。在 VideoKR 上进行后训练改善了模型性能,尤其在知识密集型视频推理任务上。使用 VideoKR 数据训练的模型在 VideoKR-Eval 基准上得分高于其他模型。改进在知识密集型基准上比在通用视频推理任务上更为显著。

作者在通用与知识密集型基准上评估了后训练视频推理模型,以评估 VideoKR 数据集及不同训练配置的影响。实验验证,通过利用专家验证示例与结构化推理,引入 VideoKR 能持续提升模型能力,尤其在知识密集型任务上。当监督微调与强化学习结合时性能增益最为显著,且随着输入帧数增加结果保持稳定,表明模型有效利用了更丰富的视觉与时序上下文。总体而言,研究结果证实,相较于先前语料库与替代训练方法,在 VideoKR 上进行后训练显著增强了视频推理能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供