M3-Bench 长视频问答基准数据集

日期

1 个月前

机构

字节跳动 Seed

发布地址

huggingface.co

论文链接

2508.09736

许可协议

非商业用途

下载帮助

*该数据集支持在线使用,点击此处跳转

M3-Bench 是由字节跳动 Seed 团队于 2025 年发布的一个长视频问答基准数据集,相关论文成果为「Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory」,旨在评测多模态智能体长时程记忆与推理能力。

该数据集包含 1,020 段视频样本,每段样本包含字幕、中间产物、记忆图。 M3-Bench 以长视频开放式问答(VQA)为核心任务,每段视频配有一组开放式问题。

数据组成:

  • M3-Bench-robot:研究团队新录制的 100 段真实场景第一视角视频(机器人视角)
  • M3-Bench-web:920 段来自网络、覆盖更广内容与场景的长视频