HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 21 jours

RLFR : Extension de l'apprentissage par renforcement aux modèles linguistiques à grande échelle grâce à un environnement à flux

Jinghao Zhang Naishan Zheng Ruilin Li Dongzhou Cheng Zheming Liang Feng Zhao Jiaqi Wang

RLFR : Extension de l'apprentissage par renforcement aux modèles linguistiques à grande échelle grâce à un environnement à flux

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est récemment apparu comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM). Toutefois, une politique optimisée à l’aide d’une vérification binaire risque de négliger des explorations potentiellement précieuses au sein des trajectoires de raisonnement. Étant donné le coût élevé d’étiquetage associé aux modèles de récompense de processus (PRM) dits « d’or », les travaux récents ont cherché à utiliser des signaux auxiliaires pour guider la récompense des tokens de processus, notamment à partir de l’entropie et de la probabilité extraite de l’espace des logits. Dans ce travail, nous proposons une nouvelle perspective sur la conception du RLVR à l’aide de récompenses issues d’un champ de flux construit à partir de l’espace latente, et introduisons RLFR, dans lequel les champs de flux des représentations latentes du modèle sont établis à partir soit de données de haute qualité hors politique, soit de données obtenues par échantillonnage de rejet en politique, et les écarts de vitesse des latentes de la politique dans ce champ sont quantifiés afin d’agir comme signal de récompense. RLFR démontre tout d’abord qu’un champ de flux bien établi peut constituer un environnement pertinent pour la collecte de signaux de récompense, soulignant que l’espace latent expressif reste largement sous-exploité. En outre, RLFR permet de compresser toute donnée experte hors politique en tant que référence pour constituer les signaux de récompense, et nous montrons que les dépendances contextuelles efficaces sont capturées dans les états cachés, plutôt que d’adopter une représentation contextuelle basée sur des tokens individuels. Des expériences menées sur des benchmarks de raisonnement linguistique et multimodal confirment la fiabilité des récompenses issues du flux, suggérant un paradigme prometteur pour la conception de récompenses à l’aide de signaux auxiliaires.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RLFR : Extension de l'apprentissage par renforcement aux modèles linguistiques à grande échelle grâce à un environnement à flux | Articles de recherche | HyperAI