HyperAIHyperAI

Command Palette

Search for a command to run...

Récompenses de processus avec fiabilité apprise

Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang

Résumé

Les modèles de récompense par étape (Process Reward Models, PRMs) fournissent un feedback au niveau de chaque étape du raisonnement, mais les PRMs actuels ne produisent généralement qu’un seul score de récompense pour chaque étape. Les méthodes en aval doivent donc traiter les prédictions de récompense imparfaites au niveau des étapes comme des signaux de décision fiables, sans indication quant au moment où ces prédictions doivent être considérées comme fiables. Nous proposons BetaPRM, un PRM distributionnel qui prédit à la fois une probabilité de succès au niveau de l’étape et la fiabilité de cette prédiction. Grâce à une supervision du succès des étapes issue de continuations Monte Carlo, BetaPRM apprend une croyance de type Beta qui explique le nombre observé de continuations réussies via une vraisemblance Bêta-Binôme, plutôt que de régresser vers le ratio de succès en échantillon fini comme cible ponctuelle. Ce signal de fiabilité appris indique quand une récompense d’étape doit être considérée comme fiable, permettant aux applications en aval de distinguer les récompenses fiables de celles qui sont incertaines. Comme application, nous introdusons l’Allocation Adaptative du Calcul (Adaptive Computation Allocation, ACA) pour le raisonnement Best-of-N guidé par PRM. ACA utilise le signal de fiabilité appris pour s’arrêter lorsqu’une solution à haute récompense est fiable, et pour allouer un calcul supplémentaire aux préfixes candidats incertains. Les expériences menées sur quatre architectures de base et quatre benchmarks de raisonnement montrent que BetaPRM améliore la sélection Best-of-N guidée par PRM tout en préservant la détection standard des erreurs au niveau des étapes. Fondée sur ce signal, ACA améliore le compromis précision–token par rapport au Best-of-16 à budget fixe, réduisant l’utilisation de tokens jusqu’à 33,57 % tout en améliorant la précision de la réponse finale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp