日期

1 年前

数据集组织

论文 URL

标签

该数据集是由阿里巴巴达摩院于 2025 年发布的一个多模态教科书数据集，相关论文成果为：「2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining」，旨在增强多模态预训练，并扩展模型处理交错视觉和文本输入的能力。该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据，所有图像和文本均从在线教学视频（22,000 课时）中提取，覆盖数学、物理、化学等 6 个基础学科，为图像文本对齐提供了更连贯的背景和更丰富的知识。从教学视频构建数据集示例

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

CHIMERA 通用推理合成数据集

Command Palette

Multimodal-Textbook-6.5M 多模态教科书数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Multimodal-Textbook-6.5M 多模态教科书数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Nemotron Personas France 法国合成人物数据集

Sutra 10B Pretraining 教学训练数据集

Student Mental Health 学生心理健康与倦怠数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

LightOnOCR-mix-0126 文本转录数据集

TransPhy3D 透明反射合成视频数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Multimodal-Textbook-6.5M 多模态教科书数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Nemotron Personas France 法国合成人物数据集

Sutra 10B Pretraining 教学训练数据集

Student Mental Health 学生心理健康与倦怠数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

LightOnOCR-mix-0126 文本转录数据集

TransPhy3D 透明反射合成视频数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

DRACO 跨领域深度研究基准数据集

Nemotron Personas France 法国合成人物数据集

Sutra 10B Pretraining 教学训练数据集

Student Mental Health 学生心理健康与倦怠数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

CL-bench 上下文学习评估基准数据集

RoVid-X 机器人视频生成数据集

LightOnOCR-mix-0126 文本转录数据集

TransPhy3D 透明反射合成视频数据集

GroundingME 复杂场景理解评测数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

相关数据集

DRACO 跨领域深度研究基准数据集

Nemotron Personas France 法国合成人物数据集

Sutra 10B Pretraining 教学训练数据集

Student Mental Health 学生心理健康与倦怠数据集

Groundsource 全球洪水事件数据集

CHIMERA 通用推理合成数据集

Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集