日期

2 年前

大小

73.61 GB

数据集组织

标签

InfiMM-WebMath-40B 数据集是由字节跳动和中国科学院的研究团队于 2024 年发布的，相关论文成果为「InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning」。该数据集专门为数学推理任务设计的大型开源多模态数据集，包含 2.4k 万网页、 8.5k 万相关图像 URL 和 400 亿个 tokens，所有这些都经过精心提取和过滤，来自 CommonCrawl 数据库 (2019-2023) 。这个数据集的发布，为开源社区提供了一个宝贵的资源，以推进多模态大型语言模型 (MLLMs) 在数学推理方面的能力。数据集的构建过程包括文本提取、语言过滤、高质量内容过滤、去重和图像 URL 的提取。通过这些步骤，确保了数据集的质量和相关性。在模型训练方面，InfiMM-WebMath-40B 数据集用于继续预训练，以增强模型在多模态设置中获取数学知识的能力。此外，还进行了指令微调，以进一步提高模型性能。

InfiMM-WebMath-40B.torrent

做种 1正在下载 0已完成 239总下载量 334

InfiMM-WebMath-40B/
- README.md
  1.83 KB
- README.txt
  3.67 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

73.61 GB

数据集组织

标签

InfiMM-WebMath-40B.torrent

做种 1正在下载 0已完成 239总下载量 334

InfiMM-WebMath-40B/
- README.md
  1.83 KB
- README.txt
  3.67 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

GPT-5.4-step-by-step-reasoning 逐步推理数据集

2 个月前

Sutra 10B Pretraining 教学训练数据集

3 个月前

CHIMERA 通用推理合成数据集

4 个月前

THINGS-EEG 脑电图数据集

5 个月前

THINGS-MEG 脑磁图数据集

5 个月前

THINGS-fMRI 功能磁共振成像数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

Command Palette

InfiMM-WebMath-40B 多模态数学推理数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfiMM-WebMath-40B 多模态数学推理数据集

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

InfiMM-WebMath-40B 多模态数学推理数据集

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集

相关数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集

Sutra 10B Pretraining 教学训练数据集

CHIMERA 通用推理合成数据集

THINGS-EEG 脑电图数据集

THINGS-MEG 脑磁图数据集

THINGS-fMRI 功能磁共振成像数据集