Command Palette
Search for a command to run...
Prozessbelohnungen mit erlernter Zuverlässigkeit
Prozessbelohnungen mit erlernter Zuverlässigkeit
Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang
Zusammenfassung
Process Reward Models (PRMs) liefern schrittweises Feedback für den Reasoning-Prozess, doch geben aktuelle PRMs in der Regel nur einen einzelnen Belohnungswert pro Schritt aus. Nachgelagerte Methoden müssen daher unvollkommene schrittweise Belohnungsvorhersagen als verlässliche Entscheidungssignale behandeln, ohne eine Angabe dazu, wann diesen Vorhersagen vertraut werden sollte. Wir schlagen BetaPRM vor, ein distributionsbasiertes PRM, das sowohl eine schrittweise Erfolgswahrscheinlichkeit als auch die Zuverlässigkeit dieser Vorhersage vorhersagt. Basierend auf schrittweisen Erfolgssupervisionsdaten aus Monte-Carlo-Fortsetzungen lernt BetaPRM eine Beta-Überzeugung, die die beobachtete Anzahl erfolgreicher Fortsetzungen durch eine Beta-Binomial-Likelihood erklärt, anstatt auf das Erfolgverhältnis endlicher Stichproben als Punktziel zu regredieren. Dieses gelernte Zuverlässigkeitssignal zeigt an, wann ein Schrittbelohnungswert vertraut werden sollte, und ermöglicht es nachgelagerten Anwendungen, verlässliche von unsicheren Belohnungen zu unterscheiden. Als eine Anwendung führen wir Adaptive Computation Allocation (ACA) für PRM-gesteuertes Best-of-N-Reasoning ein. ACA nutzt das gelernte Zuverlässigkeitssignal, um zu stoppen, wenn eine Lösung mit hoher Belohnung verlässlich ist, und um zusätzliche Rechenressourcen für unsichere Kandidaten-Präfixe aufzuwenden. Experimente über vier Backbones und vier Reasoning-Benchmarks hinweg zeigen, dass BetaPRM die PRM-gesteuerte Best-of-N-Auswahl verbessert, während die standardmäßige schrittweise Fehlererkennung erhalten bleibt. Aufbauend auf diesem Signal verbessert ACA das Genauigkeit-Token-Verhältnis im Vergleich zu Best-of-16 mit festem Budget und reduziert den Token-Verbrauch um bis zu 33,57 %, während die Genauigkeit der Endergebnisse steigt.