HyperAIHyperAI

Command Palette

Search for a command to run...

Video-MME-v2:迈向全面视频理解 Benchmark 的下一阶段

摘要

随着视频理解技术的飞速发展,现有的 benchmark 正趋于饱和,这暴露了一个关键问题:即榜单上虚高的分数与模型的真实世界能力之间存在严重脱节。为了弥补这一不断扩大的差距,我们推出了 Video-MME-v2,这是一个旨在严格评估视频理解鲁棒性(robustness)与忠实度(faithfulness)的综合性 benchmark。为了系统性地评估模型能力,我们设计了一个渐进式的三级分层体系,逐步提升视频理解的复杂度:从多点视觉信息聚合(multi-point visual information aggregation),到时序动态建模(temporal dynamics modeling),并最终延伸至复杂的跨模态推理(complex multimodal reasoning)。此外,不同于传统的单题准确率评估,我们提出了一种基于分组的非线性评估策略,该策略强制要求相关查询之间保持一致性,并确保多步推理的连贯性。该策略会对碎片化或仅凭猜测得出的正确答案进行惩罚,仅对那些有有效推理支撑的答案给予评分。为确保数据质量,Video-MME-v2 通过严格控制的人工标注 pipeline 构建而成,涉及 12 名标注员和 50 名独立评审员。在投入 3,300 个工时并经过多达 5 轮质量保证流程的支持下,Video-MME-v2 旨在成为最具权威性的视频 benchmark 之一。广泛的实验表明,当前最顶尖的模型 Gemini-3-Pro 与人类专家之间仍存在巨大差距,并揭示了一个清晰的分层瓶颈:即视觉信息聚合与时序建模阶段的错误会向下传播,从而限制了高层级的推理能力。我们进一步发现,基于思维(thinking-based)的推理高度依赖于文本线索,这使得模型在有字幕的情况下表现有所提升,但在纯视觉场景下性能有时反而会下降。通过揭示这些局限性,Video-MME-v2 为下一代视频 MLLM 的开发建立了一个极具挑战性的新测试场。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供