vor einem Monat

Neuüberlegung von Belohnungsmodellen für die Testzeit-Skalierung über mehrere Domänen

Details der Forschungsarbeit anzeigen Code anzeigen

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet

Neuüberlegung von Belohnungsmodellen für die Testzeit-Skalierung über mehrere Domänen

Abstract

Die Zuverlässigkeit großer Sprachmodelle (LLMs) bei der Skalierung während des Testens wird häufig mit externen Verifizierern oder Belohnungsmodellen bewertet, die zwischen korrekter und fehlerhafter Schlussfolgerung unterscheiden. Vorangegangene Arbeiten gehen im Allgemeinen davon aus, dass Prozess-Belohnungsmodelle (PRMs), die jeden einzelnen Schlussfolgerungsschritt bewerten, die Leistung von Ergebnis-Belohnungsmodellen (ORMs) übertrifft, die lediglich die endgültige Antwort bewerten. Diese Ansicht basiert hauptsächlich auf Belegen aus engen, mathematiknahen Domänen. Wir präsentieren die erste einheitliche Evaluation von vier Varianten von Belohnungsmodellen – diskriminative ORM und PRM (\DisORM, \DisPRM) sowie generative ORM und PRM (\GenORM, \GenPRM) – über 14 unterschiedliche Domänen hinweg. Im Gegensatz zur verbreiteten Ansicht zeigen wir, dass (i) \DisORM die Leistung von \DisPRM erreicht, (ii) \GenPRM nicht wettbewerbsfähig ist und (iii) insgesamt \GenORM am robustesten ist und in jeder getesteten Domäne signifikante und konsistente Verbesserungen erzielt. Wir weisen diese Stärke auf die schrittweise Bewertung im Stil von PRMs zurück, die die durch LLM-Autolabeling verursachte Label-Rauschkomponente übernimmt und Schwierigkeiten hat, lange Schlussfolgerungspfade – einschließlich solcher mit Selbstkorrektur – zu bewerten. Unsere theoretische Analyse zeigt, dass die schrittweise Aggregation von Fehlern mit wachsender Schlussfolgerungslänge verstärkt wird, und unsere empirischen Beobachtungen bestätigen diesen Effekt. Diese Ergebnisse widerlegen die vorherrschende Annahme, dass feinkörnige Aufsicht immer besser ist, und unterstützen die generative Überprüfung des Ergebnisses für den Einsatz in mehreren Domänen. Wir stellen unseren Code, unsere Datensätze und die Modellcheckpoint-Dateien öffentlich unter https://github.com/db-Lee/Multi-RM zur Verfügung, um zukünftige Forschung in multi-domänalen Kontexten zu fördern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Neuüberlegung von Belohnungsmodellen für die Testzeit-Skalierung über mehrere Domänen

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet5 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet