Command Palette
Search for a command to run...
MMMC 教育视频生成基准数据集
MMMC 是由新加坡国立大学 Show Lab 于 2025 年发布的一个用于教学视频生成的大规模多学科教育视频生成基准数据集,相关论文成果为「Code2Video: A Code-centric Paradigm for Educational Video Generation」,旨在为教育类人工智能模型提供高质量的训练与评测资源,支持从结构化代码与教学内容自动生成专业教学视频的研究。
该数据集共包含 117 个完整教学视频,涵盖 13 个学科领域,包括微积分、几何、概率论和神经网络等。完整视频平均 1,014 秒(约 16.9 分钟),分段视频平均 201 秒(约 3.35 分钟)。数据来源于以教学影响力和精湛动画制作工艺闻名的 3Blue1Brown(3B1B)YouTube 教育视频库。 MMMC 的构建遵循两项标准:一是教育相关性,即每个主题均具教学价值;二是可执行支撑,每个概念均对应高质量的 Manim 参考,以确保内容可视化与复现性。
数据集结构
- 数据文件
- metadata.jsonl:包含每个视频实例的结构化信息的主要元数据文件。
 
 
- 每个条目 metadata.jsonl 包括:
- id:视频切片的唯一标识符。
 - 类别:高级学科类别(例如,数学、物理、计算机科学)。
 - 视频:相应教育视频片段的文件路径。
 - main_topics:教学主题列表。
 - num_slices:讲座分为的视频片段数。
 - reference_image:与主题相关的关键参考图像(可选)。