HyperAIHyperAI

Command Palette

Search for a command to run...

Mathematischer Datensatz Proof-Pile-2

Datum

vor 2 Jahren

Größe

47.57 GB

Organisation

Princeton Universität
Featured Image

Proof-Pile-2 ist ein tokenisierter Datensatz mit 55 Milliarden mathematischen und wissenschaftlichen Dokumenten. Eine Mischung aus wissenschaftlichen Arbeiten, mathematikbezogenen Webinhalten und mathematischem Code auf dem Stand vom April 2023 (ausgenommen eine bestimmte Teilmenge der Lean-Proof-Schritte). Dieser Datensatz wurde zum Trainieren der Modelle Llemma 7B und Llemma 34B erstellt.

Es besteht aus drei Untergruppen:

  • arxiv (29 B Token): ArXiv-Teilmenge von RedPajama
  • open-web-math (15 Mrd. Token):OpenWebMath Ein Datensatz mit vielen hochwertigen mathematischen Texten aus dem Internet.
  • algebraic-stack (11 B-Token): Ein neuer Datensatz mathematischer Codes aus den Bereichen numerische Berechnung, Computeralgebra und formale Mathematik.
proof-pile-2.torrent
Seeding 2Herunterladen 0Abgeschlossen 151Gesamtdownloads 277
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mathematischer Datensatz Proof-Pile-2 | Datensätze | HyperAI