HyperAIHyperAI
vor 2 Monaten

Die Messung mathematischer Problemlösungsfähigkeiten mit dem MATH-Datensatz

Dan Hendrycks; Collin Burns; Saurav Kadavath; Akul Arora; Steven Basart; Eric Tang; Dawn Song; Jacob Steinhardt
Die Messung mathematischer Problemlösungsfähigkeiten mit dem MATH-Datensatz
Abstract

Viele intellektuelle Unternehmungen erfordern das Lösen mathematischer Probleme, doch diese Fähigkeit liegt weiterhin jenseits der Möglichkeiten von Computern. Um diese Fähigkeit in maschinellen Lernmodellen zu messen, stellen wir MATH vor, einen neuen Datensatz mit 12.500 anspruchsvollen Wettbewerbsmathematikaufgaben. Jedes Problem in MATH verfügt über eine vollständige Schritt-für-Schritt-Lösung, die verwendet werden kann, um Modelle zu lehren, Lösungswege und Erklärungen zu generieren. Um zukünftige Forschungen zu erleichtern und die Genauigkeit auf MATH zu erhöhen, tragen wir auch einen großen zusätzlichen Vortrainingsdatensatz bei, der hilft, den Grundlagen der Mathematik beizubringen. Obwohl es uns gelingt, die Genauigkeit auf MATH zu verbessern, zeigen unsere Ergebnisse, dass die Genauigkeit selbst bei riesigen Transformer-Modellen relativ niedrig bleibt. Darüber hinaus stellen wir fest, dass eine einfache Erhöhung der Budgets und der Anzahl der Modelparameter unpraktisch sein wird, um starke mathematische Schlussfolgerungen zu erreichen, wenn die Skalierungstrends so weitergehen. Während die Skalierung von Transformers automatisch die meisten anderen textbasierten Aufgaben löst, löst sie aktuell nicht MATH. Um Fortschritte im Lösen mathematischer Probleme zu erzielen, werden wir wahrscheinlich neue algorithmische Entwicklungen aus der breiteren Forschungsgemeinschaft benötigen.

Die Messung mathematischer Problemlösungsfähigkeiten mit dem MATH-Datensatz | Neueste Forschungsarbeiten | HyperAI