vor 11 Tagen

Bitte überprüfen wir Schritt für Schritt.

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

Details der Forschungsarbeit anzeigen

Bitte überprüfen wir Schritt für Schritt.

Abstract

In den letzten Jahren haben große Sprachmodelle erheblich an ihrer Fähigkeit zur Durchführung komplexer mehrschrittiger Reasoning-Prozesse verbessert. Dennoch produzieren selbst state-of-the-art-Modelle regelmäßig logische Fehler. Um zuverlässigere Modelle zu trainieren, können wir entweder auf Ergebnisüberwachung zurückgreifen, die Feedback für das endgültige Ergebnis liefert, oder auf Prozessüberwachung, die Feedback für jeden einzelnen Zwischenschritt bereitstellt. Angesichts der Bedeutung der Entwicklung zuverlässiger Modelle und der hohen Kosten menschlicher Feedback-Generierung ist es entscheidend, beide Methoden sorgfältig miteinander zu vergleichen. Obwohl bereits erste Arbeiten diesen Vergleich aufgenommen haben, bleiben viele Fragen offen. In unserer eigenen Untersuchung zeigen wir, dass die Prozessüberwachung die Ergebnisüberwachung bei der Ausbildung von Modellen zur Lösung von Aufgaben aus dem anspruchsvollen MATH-Datensatz deutlich übertrifft. Unser prozessüberwachtes Modell löst 78 % der Aufgaben einer repräsentativen Teilmenge des MATH-Testsets. Zudem zeigen wir, dass aktives Lernen die Effizienz der Prozessüberwachung erheblich steigert. Um die Forschung in diesem Bereich zu unterstützen, veröffentlichen wir zudem PRM800K, den vollständigen Datensatz mit 800.000 menschlich generierten Feedback-Markierungen auf Schritt-Ebene, die zur Ausbildung unseres besten Belohnungsmodells verwendet wurden.