MathPile – Vortrainiertes Korpus Für Mathematisches Denken
Datum
vor einem Jahr
Veröffentlichungs-URL
Lizenz
其他
Kategorien
MathPile ist ein vielfältiges und hochwertiges mathematikzentriertes Korpus mit etwa 9,5 Milliarden Token. Dieser Datensatz unterscheidet sich in den folgenden Merkmalen erheblich von früheren Datensätzen:
- Mathematikzentriert:MathPile konzentriert sich auf das Gebiet der Mathematik, im Gegensatz zu den Korpora, die sich auf allgemeine Gebiete konzentrieren, wie Pile und RedPajama, oder denen, die sich auf mehrere Sprachen konzentrieren, wie ROOTS und The Stack. Zwar gibt es mathematikzentrierte Korpora, doch handelt es sich dabei entweder um Closed Source, wie etwa Minerva von Google und MathMix von OpenAI, oder es mangelt ihnen an Vielfalt, wie etwa ProofPile und OpenWebMath.
- Diversität:MathPile sammelt aus einer Vielzahl von Quellen:Lehrbücher (einschließlich Vorlesungsnotizen), arXiv, Wikipedia, ProofWiki, StackExchange und Webseiten.Es enthält Mathematikinhalte, die für die Klassenstufen K-12, College, Graduiertenniveau und Mathematikwettbewerbe geeignet sind.Insbesondere hat das Forschungsteam eine große Sammlung hochwertiger Lehrbücher veröffentlicht (ca. 0,19 Milliarden Token).
- hohe Qualität: Das Forschungsteam hält sich an den Grundsatz „Weniger ist mehr“ und ist fest davon überzeugt, dass die Qualität der Daten der Quantität überlegen ist, und zwar bereits in der Vortrainingsphase. Die sorgfältigen Bemühungen des Forschungsteams zur Datenerfassung und -verarbeitung umfassten eine anspruchsvolle Suite zur Vorverarbeitung, Vorprüfung, Bereinigung, Filterung und Deduplizierung, wodurch die hohe Qualität des Korpus des Forschungsteams sichergestellt wurde.
- Datendokumentation: Um die Transparenz zu erhöhen, hat das Forschungsteam MathPile ausführlich dokumentiert. Hierzu gehören eine Datensatztabelle (siehe Tabelle 5 im Dokument) und Qualitätsanmerkungen für die Webquelldateien, wie etwa Sprachidentifizierungsergebnisse und Token-zu-Wort-Verhältnisse. Dies bietet Benutzern die Flexibilität, die Daten an ihre Bedürfnisse anzupassen.Das Forschungsteam führte außerdem eine Datenkontaminationserkennung durch, um Duplikate aus Benchmark-Testsätzen wie MATH und MMLU-STEM zu entfernen.