NuminaMath-CoT-Datensatz Für Mathematikwettbewerbsprobleme
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY-NC-SA 3.0
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Dieser Datensatz wurde 2024 von AI-MO vorgeschlagen und enthält über 860.000 Frage-Antwort-Paare aus Mathematikwettbewerben, von denen jedes die Chain of Thought (CoT)-Argumentationsvorlage verwendet. Zu den Quellen des Datensatzes zählen Mathematikübungen für chinesische Oberschulen sowie Wettbewerbsfragen der amerikanischen und internationalen Mathematikolympiade. Die Daten wurden hauptsächlich aus Online-Prüfungsbögen im PDF-Format und aus Mathematik-Diskussionsforen gesammelt. Die Verarbeitungsschritte umfassen (a) OCR aus dem Original-PDF, (b) Segmentierung in Problem-Lösungs-Paare, (c) Übersetzung ins Englische, (d) Umformung zur Generierung des CoT-Argumentationsformats und (e) endgültiges Antwortformat.