Command Palette

Search for a command to run...

21 天前

OmniVideoBench:面向全景多模态大模型的音视频理解评估

OmniVideoBench:面向全景多模态大模型的音视频理解评估

摘要

近年来,多模态大语言模型(MLLMs)在视频理解任务中展现出巨大的潜力。然而,现有的评估基准在全面衡量音频与视觉模态之间的协同推理能力方面仍存在明显不足,往往忽视其中某一模态,或以逻辑上不一致的方式对两者进行整合。为弥补这一差距,我们提出了 OmniVideoBench——一个大规模、精心设计的基准测试集,旨在评估多模态协同音频-视觉理解能力,特别强调模态间的互补性与逻辑一致性。具体而言,OmniVideoBench 包含 1000 个高质量的问答(QA)对,每个问答均附有逐步推理过程的标注,数据源自 628 段时长从数秒到 30 分钟不等的多样化视频,并经过人工验证,确保答案的完全正确性与唯一性。此外,OmniVideoBench 设计了 13 种精细划分的问题类型,涵盖时间推理、空间定位、计数、因果推断、摘要生成等任务,全面覆盖视频理解中的核心挑战。在 OmniVideoBench 上对多种 MLLMs 的评估结果显示,模型表现与人类推理能力之间存在显著差距,开源模型相较于闭源模型明显落后,凸显了真实音频-视觉协同推理任务的内在难度。我们将公开发布 OmniVideoBench,以推动具备更强、更泛化推理能力的 MLLMs 的发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供