Command Palette
Search for a command to run...
MathPile – Vortrainiertes Korpus Für Mathematisches Denken
MathPile ist ein vielfältiges und hochwertiges mathematikzentriertes Korpus mit etwa 9,5 Milliarden Token. Dieser Datensatz unterscheidet sich in den folgenden Merkmalen erheblich von früheren Datensätzen:
- Mathematikzentriert:MathPile konzentriert sich auf das Gebiet der Mathematik, im Gegensatz zu den Korpora, die sich auf allgemeine Gebiete konzentrieren, wie Pile und RedPajama, oder denen, die sich auf mehrere Sprachen konzentrieren, wie ROOTS und The Stack. Zwar gibt es mathematikzentrierte Korpora, doch handelt es sich dabei entweder um Closed Source, wie etwa Minerva von Google und MathMix von OpenAI, oder es mangelt ihnen an Vielfalt, wie etwa ProofPile und OpenWebMath.
- Diversität:MathPile sammelt aus einer Vielzahl von Quellen:Lehrbücher (einschließlich Vorlesungsnotizen), arXiv, Wikipedia, ProofWiki, StackExchange und Webseiten.Es enthält Mathematikinhalte, die für die Klassenstufen K-12, College, Graduiertenniveau und Mathematikwettbewerbe geeignet sind.Insbesondere hat das Forschungsteam eine große Sammlung hochwertiger Lehrbücher veröffentlicht (ca. 0,19 Milliarden Token).
- hohe Qualität: Das Forschungsteam hält sich an den Grundsatz „Weniger ist mehr“ und ist fest davon überzeugt, dass die Qualität der Daten der Quantität überlegen ist, und zwar bereits in der Vortrainingsphase. Die sorgfältigen Bemühungen des Forschungsteams zur Datenerfassung und -verarbeitung umfassten eine anspruchsvolle Suite zur Vorverarbeitung, Vorprüfung, Bereinigung, Filterung und Deduplizierung, wodurch die hohe Qualität des Korpus des Forschungsteams sichergestellt wurde.
- Datendokumentation: Um die Transparenz zu erhöhen, hat das Forschungsteam MathPile ausführlich dokumentiert. Hierzu gehören eine Datensatztabelle (siehe Tabelle 5 im Dokument) und Qualitätsanmerkungen für die Webquelldateien, wie etwa Sprachidentifizierungsergebnisse und Token-zu-Wort-Verhältnisse. Dies bietet Benutzern die Flexibilität, die Daten an ihre Bedürfnisse anzupassen.Das Forschungsteam führte außerdem eine Datenkontaminationserkennung durch, um Duplikate aus Benchmark-Testsätzen wie MATH und MMLU-STEM zu entfernen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.
KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Hyper Newsletters
Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp