Auf Discord diskutieren

Datum

vor 2 Jahren

Organisation

Paper-URL

Lizenz

Other

Tags

MathPile ist ein vielfältiges und hochwertiges mathematikzentriertes Korpus mit etwa 9,5 Milliarden Token. Dieser Datensatz unterscheidet sich in den folgenden Merkmalen erheblich von früheren Datensätzen:

Mathematikzentriert：MathPile konzentriert sich auf das Gebiet der Mathematik, im Gegensatz zu den Korpora, die sich auf allgemeine Gebiete konzentrieren, wie Pile und RedPajama, oder denen, die sich auf mehrere Sprachen konzentrieren, wie ROOTS und The Stack. Zwar gibt es mathematikzentrierte Korpora, doch handelt es sich dabei entweder um Closed Source, wie etwa Minerva von Google und MathMix von OpenAI, oder es mangelt ihnen an Vielfalt, wie etwa ProofPile und OpenWebMath.
Diversität:MathPile sammelt aus einer Vielzahl von Quellen:**Lehrbücher (einschließlich Vorlesungsnotizen), arXiv, Wikipedia, ProofWiki, StackExchange und Webseiten.**Es enthält Mathematikinhalte, die für die Klassenstufen K-12, College, Graduiertenniveau und Mathematikwettbewerbe geeignet sind.Insbesondere hat das Forschungsteam eine große Sammlung hochwertiger Lehrbücher veröffentlicht (ca. 0,19 Milliarden Token).
hohe Qualität: Das Forschungsteam hält sich an den Grundsatz „Weniger ist mehr“ und ist fest davon überzeugt, dass die Qualität der Daten der Quantität überlegen ist, und zwar bereits in der Vortrainingsphase. Die sorgfältigen Bemühungen des Forschungsteams zur Datenerfassung und -verarbeitung umfassten eine anspruchsvolle Suite zur Vorverarbeitung, Vorprüfung, Bereinigung, Filterung und Deduplizierung, wodurch die hohe Qualität des Korpus des Forschungsteams sichergestellt wurde.
Datendokumentation: Um die Transparenz zu erhöhen, hat das Forschungsteam MathPile ausführlich dokumentiert. Hierzu gehören eine Datensatztabelle (siehe Tabelle 5 im Dokument) und Qualitätsanmerkungen für die Webquelldateien, wie etwa Sprachidentifizierungsergebnisse und Token-zu-Wort-Verhältnisse. Dies bietet Benutzern die Flexibilität, die Daten an ihre Bedürfnisse anzupassen.Das Forschungsteam führte außerdem eine Datenkontaminationserkennung durch, um Duplikate aus Benchmark-Testsätzen wie MATH und MMLU-STEM zu entfernen.

Zitat

@inproceedings{
wang2024mathpile,
title={MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Zengzhi Wang and Xuefeng Li and Rui Xia and Pengfei Liu},
booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2024},
url={https://openreview.net/forum?id=RSvhU69sbG}
}

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Auf Discord diskutieren

Datum

vor 2 Jahren

Organisation

Paper-URL

Lizenz

Other

Tags

MathPile ist ein vielfältiges und hochwertiges mathematikzentriertes Korpus mit etwa 9,5 Milliarden Token. Dieser Datensatz unterscheidet sich in den folgenden Merkmalen erheblich von früheren Datensätzen:

Mathematikzentriert：MathPile konzentriert sich auf das Gebiet der Mathematik, im Gegensatz zu den Korpora, die sich auf allgemeine Gebiete konzentrieren, wie Pile und RedPajama, oder denen, die sich auf mehrere Sprachen konzentrieren, wie ROOTS und The Stack. Zwar gibt es mathematikzentrierte Korpora, doch handelt es sich dabei entweder um Closed Source, wie etwa Minerva von Google und MathMix von OpenAI, oder es mangelt ihnen an Vielfalt, wie etwa ProofPile und OpenWebMath.
Diversität:MathPile sammelt aus einer Vielzahl von Quellen:**Lehrbücher (einschließlich Vorlesungsnotizen), arXiv, Wikipedia, ProofWiki, StackExchange und Webseiten.**Es enthält Mathematikinhalte, die für die Klassenstufen K-12, College, Graduiertenniveau und Mathematikwettbewerbe geeignet sind.Insbesondere hat das Forschungsteam eine große Sammlung hochwertiger Lehrbücher veröffentlicht (ca. 0,19 Milliarden Token).
hohe Qualität: Das Forschungsteam hält sich an den Grundsatz „Weniger ist mehr“ und ist fest davon überzeugt, dass die Qualität der Daten der Quantität überlegen ist, und zwar bereits in der Vortrainingsphase. Die sorgfältigen Bemühungen des Forschungsteams zur Datenerfassung und -verarbeitung umfassten eine anspruchsvolle Suite zur Vorverarbeitung, Vorprüfung, Bereinigung, Filterung und Deduplizierung, wodurch die hohe Qualität des Korpus des Forschungsteams sichergestellt wurde.
Datendokumentation: Um die Transparenz zu erhöhen, hat das Forschungsteam MathPile ausführlich dokumentiert. Hierzu gehören eine Datensatztabelle (siehe Tabelle 5 im Dokument) und Qualitätsanmerkungen für die Webquelldateien, wie etwa Sprachidentifizierungsergebnisse und Token-zu-Wort-Verhältnisse. Dies bietet Benutzern die Flexibilität, die Daten an ihre Bedürfnisse anzupassen.Das Forschungsteam führte außerdem eine Datenkontaminationserkennung durch, um Duplikate aus Benchmark-Testsätzen wie MATH und MMLU-STEM zu entfernen.

Zitat

@inproceedings{
wang2024mathpile,
title={MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Zengzhi Wang and Xuefeng Li and Rui Xia and Pengfei Liu},
booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2024},
url={https://openreview.net/forum?id=RSvhU69sbG}
}

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp