U-MATH-Datensatz Für Mathematisches Denken
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der U-MATH-Datensatz ist ein umfassender Benchmark-Testsatz, der speziell zur Bewertung der mathematischen Argumentationsfähigkeiten großer Sprachmodelle (LLMs) entwickelt wurde. Dieser Datensatz wurde 2024 von Toloka AI und Gradarius erstellt. Die relevanten Ergebnisse des Papiers sind:U-MATH: Ein universitärer Benchmark zur Bewertung mathematischer Fähigkeiten in LLMs". Dieser Datensatz enthält 1.100 unveröffentlichte Mathematikaufgaben auf College-Niveau, die aus authentischen Unterrichtsmaterialien stammen und sechs Kernthemen der Mathematik abdecken: Elementarmathematik, Algebra, Differentialrechnung, Integralrechnung, Analysis mit mehreren Variablen sowie Folgen und Reihen.
Ein bemerkenswertes Merkmal des U-MATH-Datensatzes sind die darin enthaltenen multimodalen Fragen. Etwa 20% der Fragen beinhalten visuelle Elemente wie Grafiken und Diagramme, was die Komplexität der Datenverarbeitung erhöht und erfordert, dass das Modell in der Lage ist, grafische Informationen zu interpretieren und zu begründen. Zu den Merkmalen des Datensatzes gehören die Frage-ID, Themen-Tags, ob er Bilder, Bilddaten, Fragestellungen und richtige Antworten enthält, die eine umfassende Bewertungsgrundlage für die mathematische Argumentationsfähigkeit des Modells bieten.