日期
大小
机构
发布地址
huggingface.co
标签
分类
OpenWebMath 是一个包含来自互联网的大部分高质量数学文本的数据集。它是从 Common Crawl 上超过 200B 个 HTML 文件中过滤和提取的,最终形成一组 630 万个文档,总共包含 14.7B 个 tokens 。 OpenWebMath 旨在用于预训练和微调大型语言模型。