HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal-Textbook-6.5M 多模态教科书数据集

Discuss on Discord

Date

6 个月前

Organization

Paper URL

arxiv.org

该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集,相关论文成果为:「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」,旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。

该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频(22,000 课时)中提取,覆盖数学、物理、化学等 6 个基础学科,为图像文本对齐提供了更连贯的背景和更丰富的知识。

从教学视频构建数据集示例

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供