vor 2 Monaten

Zusammenfassung

Prozessbelohnungsmodelle (PRMs), die dichte, schrittweise Rückmeldungen liefern, haben für das Verstärkungslernen vielversprechende Ergebnisse gezeigt, ihre Anwendung bleibt jedoch aufgrund des hohen Aufwands für kostspielige schrittweise Annotationen oder verlässliche Referenzlösungen begrenzt. Wir stellen SPARK vor: ein dreistufiges Framework, bei dem im ersten Schritt ein Generativmodell vielfältige Lösungen erzeugt und ein Verifizierungsmodell diese mithilfe paralleler Skalierung (Selbstkonsistenz) und sequenzieller Skalierung (Metakritik) bewertet. Im zweiten Schritt nutzen wir diese Verifizierungsergebnisse als synthetische Trainingsdaten, um generative Prozessbelohnungsmodelle zu feinabstimmen, die anschließend als Belohnungssignale während des Trainings dienen. Wir zeigen, dass die Aggregation mehrerer unabhängiger Verifizierungen auf Schritt-Ebene Trainingssdaten für Prozessbelohnungsmodelle erzeugt, die die Supervision durch Ground-Truth-Ergebnisse übertreffen. Auf dem Benchmark ProcessBench (zur Erkennung fehlerhafter Schritte im mathematischen Schlussfolgern) erreichen wir eine F1-Score von 67,5, im Vergleich zu 66,4 bei referenzgestütztem Training und 61,9 für GPT-4o. Im letzten Schritt wenden wir unser generatives PRM mit Kette-des-Denkens-Verifizierung (PRM-CoT) als Belohnungsmodell in RL-Experimenten zum mathematischen Schlussfolgern an und führen Formatbeschränkungen ein, um Belohnungshacking zu verhindern. Mit Qwen2.5-Math-7B erzielen wir eine durchschnittliche Genauigkeit von 47,4 % über sechs mathematische Schlussfolgerungsbenchmarks und überbieten damit die ground-truth-basierte RLVR-Methode (43,9 %). Unser Ansatz ermöglicht eine referenzfreie RL-Trainingsstrategie, die die Leistung von Ground-Truth-Methoden übertrifft, und eröffnet neue Möglichkeiten für Bereiche, in denen verifizierbare Antworten fehlen oder schwer zugänglich sind.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Verstärkendes Lernen

Überwachtes Feinabstimmen

Reasoning

Ansatz/Rahmenwerk

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Verstärkendes Lernen

Überwachtes Feinabstimmen

Reasoning

Ansatz/Rahmenwerk

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SPARK: Schrittweiser prozessbewusster Belohnungsansatz für referenzfreies Verstärkungslernen

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SPARK: Schrittweiser prozessbewusster Belohnungsansatz für referenzfreies Verstärkungslernen

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SPARK: Schrittweiser prozessbewusster Belohnungsansatz für referenzfreies Verstärkungslernen

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters