HyperAI超神经

OpenWebMath 开放网络数学训练数据集

日期

1 年前

大小

44.21 GB

机构

University of Cambridge
University of Toronto

发布地址

huggingface.co

OpenWebMath 是一个包含来自互联网的大部分高质量数学文本的数据集。它是从 Common Crawl 上超过 200B 个 HTML 文件中过滤和提取的,最终形成一组 630 万个文档,总共包含 14.7B 个 tokens 。 OpenWebMath 旨在用于预训练和微调大型语言模型。

OpenWebMath.torrent
做种 1正在下载 1已完成 153总下载次数 209
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB