Command Palette
Search for a command to run...
Neuüberlegung von Belohnungsmodellen für die Testzeit-Skalierung über mehrere Domänen

Abstract
Die Zuverlässigkeit großer Sprachmodelle (LLMs) bei der Skalierung während des Testens wird häufig mit externen Verifizierern oder Belohnungsmodellen bewertet, die zwischen korrekter und fehlerhafter Schlussfolgerung unterscheiden. Vorangegangene Arbeiten gehen im Allgemeinen davon aus, dass Prozess-Belohnungsmodelle (PRMs), die jeden einzelnen Schlussfolgerungsschritt bewerten, die Leistung von Ergebnis-Belohnungsmodellen (ORMs) übertrifft, die lediglich die endgültige Antwort bewerten. Diese Ansicht basiert hauptsächlich auf Belegen aus engen, mathematiknahen Domänen. Wir präsentieren die erste einheitliche Evaluation von vier Varianten von Belohnungsmodellen – diskriminative ORM und PRM (\DisORM, \DisPRM) sowie generative ORM und PRM (\GenORM, \GenPRM) – über 14 unterschiedliche Domänen hinweg. Im Gegensatz zur verbreiteten Ansicht zeigen wir, dass (i) \DisORM die Leistung von \DisPRM erreicht, (ii) \GenPRM nicht wettbewerbsfähig ist und (iii) insgesamt \GenORM am robustesten ist und in jeder getesteten Domäne signifikante und konsistente Verbesserungen erzielt. Wir weisen diese Stärke auf die schrittweise Bewertung im Stil von PRMs zurück, die die durch LLM-Autolabeling verursachte Label-Rauschkomponente übernimmt und Schwierigkeiten hat, lange Schlussfolgerungspfade – einschließlich solcher mit Selbstkorrektur – zu bewerten. Unsere theoretische Analyse zeigt, dass die schrittweise Aggregation von Fehlern mit wachsender Schlussfolgerungslänge verstärkt wird, und unsere empirischen Beobachtungen bestätigen diesen Effekt. Diese Ergebnisse widerlegen die vorherrschende Annahme, dass feinkörnige Aufsicht immer besser ist, und unterstützen die generative Überprüfung des Ergebnisses für den Einsatz in mehreren Domänen. Wir stellen unseren Code, unsere Datensätze und die Modellcheckpoint-Dateien öffentlich unter https://github.com/db-Lee/Multi-RM zur Verfügung, um zukünftige Forschung in multi-domänalen Kontexten zu fördern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.