Command Palette
Search for a command to run...
该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集,相关论文成果为:「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」,旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。
该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频(22,000 课时)中提取,覆盖数学、物理、化学等 6 个基础学科,为图像文本对齐提供了更连贯的背景和更丰富的知识。

从教学视频构建数据集示例