HyperAI

Mathematischer Datensatz Proof-Pile-2

Datum

vor einem Jahr

Größe

47.57 GB

Organisation

Princeton Universität

Veröffentlichungs-URL

huggingface.co

特色图像

Proof-Pile-2 ist ein tokenisierter Datensatz mit 55 Milliarden mathematischen und wissenschaftlichen Dokumenten. Eine Mischung aus wissenschaftlichen Arbeiten, mathematikbezogenen Webinhalten und mathematischem Code auf dem Stand vom April 2023 (ausgenommen eine bestimmte Teilmenge der Lean-Proof-Schritte). Dieser Datensatz wurde zum Trainieren der Modelle Llemma 7B und Llemma 34B erstellt.

Es besteht aus drei Untergruppen:

  • arxiv (29 B Token): ArXiv-Teilmenge von RedPajama
  • open-web-math (15 Mrd. Token):OpenWebMath Ein Datensatz mit vielen hochwertigen mathematischen Texten aus dem Internet.
  • algebraic-stack (11 B-Token): Ein neuer Datensatz mathematischer Codes aus den Bereichen numerische Berechnung, Computeralgebra und formale Mathematik.
proof-pile-2.torrent
Seeding 1Herunterladen 2Abgeschlossen 82Gesamtdownloads 151
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB