DART-Math: Schwierigkeitsbewusstes Ablehnungstraining für mathematische Problemlösung

Das Lösen mathematischer Probleme erfordert fortschrittliche Denkfähigkeiten und stellt für große Sprachmodelle erhebliche Herausforderungen dar. Frühere Arbeiten synthetisieren in der Regel Daten aus proprietären Modellen, um vorhandene Datensätze zu erweitern, gefolgt von Anweisungstuning, um Spitzenleistungen zu erzielen. Unser Analyse dieser Datensätze zeigt jedoch gravierende Verzerrungen zugunsten einfacher Abfragen auf, wobei häufig keine korrekten Antworten für die anspruchsvollsten Abfragen generiert werden. Unter der Annahme, dass schwierige Abfragen entscheidend sind, um komplexe Denkprozesse zu lernen, schlagen wir Difficulty-Aware Rejection Tuning (DART) vor, eine Methode, die im Synthese-Phasen mehr Versuche für schwierige Abfragen bereitstellt und so eine intensivere Ausbildung an schwierigen Beispielen ermöglicht. Mit Hilfe von DART haben wir neue Datensätze für das Lösen mathematischer Probleme erstellt, die sich stärker auf schwierige Abfragen konzentrieren und erheblich kleiner sind als frühere Datensätze. Bemerkenswerterweise basiert unser Synthese-Prozess ausschließlich auf einem offenen Modell mit einer Größe von 7 Milliarden Parametern (7B), ohne auf das gebräuchliche proprietäre Modell GPT-4 zurückzugreifen. Wir feinjustieren verschiedene Basismodelle mit Größen zwischen 7B und 70B an unseren Datensätzen, was in einer Reihe leistungsfähiger Modelle namens DART-MATH resultiert. In umfassenden Evaluationsstudien sowohl innerhalb des Domains als auch außerhalb des Domains auf sechs mathematischen Benchmarks übertrifft DART-MATH das naive Rejection Tuning deutlich und ist dennoch überlegen oder vergleichbar mit früheren Methoden, obwohl es viel kleinere Datensätze verwendet und keine proprietären Modelle einsetzt. Darüber hinaus positionieren unsere Ergebnisse unsere synthetischen Datensätze als die effektivsten und kosteneffizientesten öffentlich verfügbaren Ressourcen zur Förderung des mathematischen Problemlösens.