Orca-Math-200K Microsoft Math-Textaufgaben-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
Orca-Math-200K ist ein hochwertiger synthetischer Datensatz von Microsoft, der etwa 200.000 Mathematikfragen für die Grundschule enthält. Alle Antworten in diesem Datensatz werden mit Azure GPT4-Turbo generiert.
Die Forscher haben mehrere Agenten erstellt, die beim Aufbau des Datensatzes helfen sollen. Der Erstellungsprozess umfasste die Erstellung eines Seed-Sets, die Generierung von Agent-Ask-Me-Anything-Fragen, die kollaborative Generierung von Agent, Antragsteller und Editor, den Import von DMath-Datensätzen, die Verbesserung von Datensätzen und einen iterativen Lernprozess. Dieser Datensatz zielt darauf ab, die mathematischen Fähigkeiten von Sprachmodellen zu verbessern, um eine solide Grundlage für Sprachmodelle bei der Lösung mathematischer Probleme zu schaffen.