MathPile 数学推理预训练语料库

日期

10 个月前

机构

上海交通大学

发布地址

wisemodel.cn

许可协议

其他

下载帮助

MathPile 是一个多样化且高质量的以数学为中心的语料库,包含约 95 亿个 token 。该数据集与以前的数据集在以下特征上有着显著不同:

  • 以数学为中心:MathPile 专注服务于数学领域,不同于那些专注于通用领域的语料库如 Pile 和 RedPajama,或专注于多语言的如 ROOTS 和 The Stack 。尽管存在以数学为中心的语料库,但它们要么是闭源的,如谷歌的 Minerva 和 OpenAI 的 MathMix;要么缺乏多样性,如 ProofPile 和 OpenWebMath 。
  • 多样性:MathPile 从广泛的来源中收集:教科书(包括讲义)、 arXiv 、维基百科、 ProofWiki 、 StackExchange 和 网页。它包含适合 K-12 、大学、研究生水平以及数学竞赛的数学内容。尤其是研究团队发布了大量高质量教科书的集合(约 0.19B token)。
  • 高质量:研究团队坚持少即是多的原则,坚信数据质量超过数量的优越性,即使在预训练阶段也是如此。研究团队细致的数据收集和处理努力包括了复杂的预处理、预筛选、清洗、筛选和去重套件,确保了研究团队语料库的高质量。
  • 数据文档:为了增强透明度,研究团队对 MathPile 进行了广泛的文档记录。这包括一个数据集表(见论文中的表 5)和对网页来源文件的质量注释,如语言识别分数和符号到词的比率。这为用户提供了根据自己的需求定制数据的灵活性。研究团队还进行了数据污染检测,以消除来自如 MATH 和 MMLU-STEM 等基准测试集的重复项。