HyperAI
Command Palette
Search for a command to run...
Multimodal-Textbook-6.5M 多模态教科书数据集
该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集,相关论文成果为:「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」,旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。
该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频(22,000 课时)中提取,覆盖数学、物理、化学等 6 个基础学科,为图像文本对齐提供了更连贯的背景和更丰富的知识。

从教学视频构建数据集示例
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。