SPARK: Schrittweiser prozessbewusster Belohnungsansatz für referenzfreies Verstärkungslernen
SPARK: Schrittweiser prozessbewusster Belohnungsansatz für referenzfreies Verstärkungslernen
Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Abstract
Prozessbelohnungsmodelle (PRMs), die dichte, schrittweise Rückmeldungen liefern, haben für das Verstärkungslernen vielversprechende Ergebnisse gezeigt, ihre Anwendung bleibt jedoch aufgrund des hohen Aufwands für kostspielige schrittweise Annotationen oder verlässliche Referenzlösungen begrenzt. Wir stellen SPARK vor: ein dreistufiges Framework, bei dem im ersten Schritt ein Generativmodell vielfältige Lösungen erzeugt und ein Verifizierungsmodell diese mithilfe paralleler Skalierung (Selbstkonsistenz) und sequenzieller Skalierung (Metakritik) bewertet. Im zweiten Schritt nutzen wir diese Verifizierungsergebnisse als synthetische Trainingsdaten, um generative Prozessbelohnungsmodelle zu feinabstimmen, die anschließend als Belohnungssignale während des Trainings dienen. Wir zeigen, dass die Aggregation mehrerer unabhängiger Verifizierungen auf Schritt-Ebene Trainingssdaten für Prozessbelohnungsmodelle erzeugt, die die Supervision durch Ground-Truth-Ergebnisse übertreffen. Auf dem Benchmark ProcessBench (zur Erkennung fehlerhafter Schritte im mathematischen Schlussfolgern) erreichen wir eine F1-Score von 67,5, im Vergleich zu 66,4 bei referenzgestütztem Training und 61,9 für GPT-4o. Im letzten Schritt wenden wir unser generatives PRM mit Kette-des-Denkens-Verifizierung (PRM-CoT) als Belohnungsmodell in RL-Experimenten zum mathematischen Schlussfolgern an und führen Formatbeschränkungen ein, um Belohnungshacking zu verhindern. Mit Qwen2.5-Math-7B erzielen wir eine durchschnittliche Genauigkeit von 47,4 % über sechs mathematische Schlussfolgerungsbenchmarks und überbieten damit die ground-truth-basierte RLVR-Methode (43,9 %). Unser Ansatz ermöglicht eine referenzfreie RL-Trainingsstrategie, die die Leistung von Ground-Truth-Methoden übertrifft, und eröffnet neue Möglichkeiten für Bereiche, in denen verifizierbare Antworten fehlen oder schwer zugänglich sind.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.