il y a un mois

Repenser les modèles de récompense pour le scaling à temps de test multi-domaines

Voir les détails de l'article Voir le code

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet

Repenser les modèles de récompense pour le scaling à temps de test multi-domaines

Résumé

La fiabilité des grands modèles linguistiques (LLM) lors de l’échelonnage au moment du test est généralement évaluée à l’aide de vérificateurs externes ou de modèles de récompense capables de distinguer un raisonnement correct d’un raisonnement fallacieux. Les travaux antérieurs supposent généralement que les modèles de récompense par processus (PRM), qui notent chaque étape intermédiaire du raisonnement, surpassent les modèles de récompense par résultat (ORM), qui évaluent uniquement la réponse finale. Cette vision repose principalement sur des preuves issues de domaines étroits et proches des mathématiques. Nous présentons la première évaluation unifiée de quatre variantes de modèles de récompense — ORM discriminatif et PRM discriminatif (\DisORM, \DisPRM) ainsi que ORM génératif et PRM génératif (\GenORM, \GenPRM) — sur 14 domaines diversifiés. Contrairement à l’opinion courante, nous constatons que : (i) \DisORM se comporte aussi bien que \DisPRM ; (ii) \GenPRM n’est pas compétitif ; et (iii) globalement, \GenORM est le plus robuste, offrant des gains significatifs et constants dans chacun des domaines testés. Nous attribuons cette performance à la notation par étapes du type PRM, qui hérite du bruit d’étiquetage provenant de l’auto-étiquetage par les LLM et éprouve des difficultés à évaluer des trajectoires de raisonnement longues, y compris celles impliquant un raisonnement auto-correctif. Notre analyse théorique montre que l’agrégation étape par étape amplifie les erreurs à mesure que la longueur du raisonnement augmente, et nos observations empiriques confirment cet effet. Ces résultats remettent en question l’hypothèse dominante selon laquelle une supervision fine-grainée est toujours préférable, et soutiennent l’utilisation de la vérification générative du résultat pour les déploiements multi-domaines. Nous mettons publiquement à disposition notre code, nos jeux de données et nos points de contrôle à l’adresse suivante :https://github.com/db-Lee/Multi-RMafin de faciliter les recherches futures dans des contextes multi-domaines.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Repenser les modèles de récompense pour le scaling à temps de test multi-domaines

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet5 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet