HyperAI超神经

摘要

随着视频理解技术的飞速发展，现有的 benchmark 正趋于饱和，这暴露了一个关键问题：即榜单上虚高的分数与模型的真实世界能力之间存在严重脱节。为了弥补这一不断扩大的差距，我们推出了 Video-MME-v2，这是一个旨在严格评估视频理解鲁棒性（robustness）与忠实度（faithfulness）的综合性 benchmark。为了系统性地评估模型能力，我们设计了一个渐进式的三级分层体系，逐步提升视频理解的复杂度：从多点视觉信息聚合（multi-point visual information aggregation），到时序动态建模（temporal dynamics modeling），并最终延伸至复杂的跨模态推理（complex multimodal reasoning）。此外，不同于传统的单题准确率评估，我们提出了一种基于分组的非线性评估策略，该策略强制要求相关查询之间保持一致性，并确保多步推理的连贯性。该策略会对碎片化或仅凭猜测得出的正确答案进行惩罚，仅对那些有有效推理支撑的答案给予评分。为确保数据质量，Video-MME-v2 通过严格控制的人工标注 pipeline 构建而成，涉及 12 名标注员和 50 名独立评审员。在投入 3,300 个工时并经过多达 5 轮质量保证流程的支持下，Video-MME-v2 旨在成为最具权威性的视频 benchmark 之一。广泛的实验表明，当前最顶尖的模型 Gemini-3-Pro 与人类专家之间仍存在巨大差距，并揭示了一个清晰的分层瓶颈：即视觉信息聚合与时序建模阶段的错误会向下传播，从而限制了高层级的推理能力。我们进一步发现，基于思维（thinking-based）的推理高度依赖于文本线索，这使得模型在有字幕的情况下表现有所提升，但在纯视觉场景下性能有时反而会下降。通过揭示这些局限性，Video-MME-v2 为下一代视频 MLLM 的开发建立了一个极具挑战性的新测试场。

摘要

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

摘要

用 AI 构建 AI

HyperAI Newsletters

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

摘要

用 AI 构建 AI

HyperAI Newsletters

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie