vor 6 Stunden

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

Process Reward Models (PRMs) liefern schrittweises Feedback für den Reasoning-Prozess, doch geben aktuelle PRMs in der Regel nur einen einzelnen Belohnungswert pro Schritt aus. Nachgelagerte Methoden müssen daher unvollkommene schrittweise Belohnungsvorhersagen als verlässliche Entscheidungssignale behandeln, ohne eine Angabe dazu, wann diesen Vorhersagen vertraut werden sollte. Wir schlagen BetaPRM vor, ein distributionsbasiertes PRM, das sowohl eine schrittweise Erfolgswahrscheinlichkeit als auch die Zuverlässigkeit dieser Vorhersage vorhersagt. Basierend auf schrittweisen Erfolgssupervisionsdaten aus Monte-Carlo-Fortsetzungen lernt BetaPRM eine Beta-Überzeugung, die die beobachtete Anzahl erfolgreicher Fortsetzungen durch eine Beta-Binomial-Likelihood erklärt, anstatt auf das Erfolgverhältnis endlicher Stichproben als Punktziel zu regredieren. Dieses gelernte Zuverlässigkeitssignal zeigt an, wann ein Schrittbelohnungswert vertraut werden sollte, und ermöglicht es nachgelagerten Anwendungen, verlässliche von unsicheren Belohnungen zu unterscheiden. Als eine Anwendung führen wir Adaptive Computation Allocation (ACA) für PRM-gesteuertes Best-of-N-Reasoning ein. ACA nutzt das gelernte Zuverlässigkeitssignal, um zu stoppen, wenn eine Lösung mit hoher Belohnung verlässlich ist, und um zusätzliche Rechenressourcen für unsichere Kandidaten-Präfixe aufzuwenden. Experimente über vier Backbones und vier Reasoning-Benchmarks hinweg zeigen, dass BetaPRM die PRM-gesteuerte Best-of-N-Auswahl verbessert, während die standardmäßige schrittweise Fehlererkennung erhalten bleibt. Aufbauend auf diesem Signal verbessert ACA das Genauigkeit-Token-Verhältnis im Vergleich zu Best-of-16 mit festem Budget und reduziert den Token-Verbrauch um bis zu 33,57 %, während die Genauigkeit der Endergebnisse steigt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 6 Stunden

Reasoning

Verstärkendes Lernen

LLM

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 6 Stunden

Reasoning

Verstärkendes Lernen

LLM

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Prozessbelohnungen mit erlernter Zuverlässigkeit

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Prozessbelohnungen mit erlernter Zuverlässigkeit

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Prozessbelohnungen mit erlernter Zuverlässigkeit

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters