MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档而获得的(最新版本,即 v0.2)。具体来说,研究团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其他源采用关键字匹配。
MathPile 是一个多样化且高质量的以数学为中心的语料库,包含约 95 亿个 token 。该数据集与以前的数据集在以下特征上有着显著不同:
- 以数学为中心:MathPile 专注服务于数学领域,不同于那些专注于通用领域的语料库如 Pile 和 RedPajama,或专注于多语言的如 ROOTS 和 The Stack 。尽管存在以数学为中心的语料库,但它们要么是闭源的,如谷歌的 Minerva 和 OpenAI 的 MathMix;要么缺乏多样性,如 ProofPile 和 OpenWebMath 。
- 多样性:MathPile 从广泛的来源中收集:教科书(包括讲义)、 arXiv 、维基百科、 ProofWiki 、 StackExchange 和 网页。它包含适合 K-12 、大学、研究生水平以及数学竞赛的数学内容。尤其是研究团队发布了大量高质量教科书的集合(约 0.19B token)。
- 高质量:研究团队坚持少即是多的原则,坚信数据质量超过数量的优越性,即使在预训练阶段也是如此。研究团队细致的数据收集和处理努力包括了复杂的预处理、预筛选、清洗、筛选和去重套件,确保了研究团队语料库的高质量。
- 数据文档:为了增强透明度,研究团队对 MathPile 进行了广泛的文档记录。这包括一个数据集表(见论文中的表 5)和对网页来源文件的质量注释,如语言识别分数和符号到词的比率。这为用户提供了根据自己的需求定制数据的灵活性。