il y a un mois

Avantages et pièges de l'apprentissage par renforcement pour la planification des modèles de langage : une perspective théorique

Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

Résumé

Les méthodes récentes d'apprentissage par renforcement (RL) ont considérablement amélioré les capacités de planification des grands modèles linguistiques (LLM), mais la base théorique de leur efficacité reste encore mal comprise. Dans ce travail, nous étudions les avantages et les limites du RL à l’aide d’une abstraction graphique simplifiée, en nous concentrant sur les méthodes de gradient de politique (PG) et d’apprentissage Q. Nos analyses théoriques révèlent que le fine-tuning supervisé (SFT) peut introduire des solutions artificielles basées sur les co-occurrences, tandis que le RL parvient à une planification correcte principalement grâce à l’exploration, soulignant ainsi le rôle clé de l’exploration dans l’amélioration de la généralisation. Toutefois, nous montrons également que le PG souffre d’un phénomène de « collapsus de diversité », caractérisé par une diminution de la diversité des sorties au cours de l’entraînement, phénomène qui persiste même après avoir atteint une précision parfaite. À l’inverse, l’apprentissage Q présente deux avantages majeurs : l’apprentissage hors politique (off-policy) et la préservation de la diversité au point de convergence. Nous démontrons également que la conception soigneuse de la récompense est essentielle pour éviter le « hacking de récompense » dans l’apprentissage Q. Enfin, en appliquant notre cadre au benchmark de planification réel Blocksworld, nous confirmons que ces comportements se manifestent effectivement dans des situations pratiques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Avantages et pièges de l'apprentissage par renforcement pour la planification des modèles de langage : une perspective théorique

Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

Résumé

Construire l'IA avec l'IA

Hyper Newsletters