Command Palette

Search for a command to run...

Multimodal-Textbook-6.5M 多模态教科书数据集

日期

4 个月前

机构

论文链接

arxiv.org

加入 Discord 社区

该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集,相关论文成果为:「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」,旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。

该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频(22,000 课时)中提取,覆盖数学、物理、化学等 6 个基础学科,为图像文本对齐提供了更连贯的背景和更丰富的知识。

从教学视频构建数据集示例

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供