Command Palette
Search for a command to run...
Avantages et pièges de l'apprentissage par renforcement pour la planification des modèles de langage : une perspective théorique
Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

Résumé
Les méthodes récentes d'apprentissage par renforcement (RL) ont considérablement amélioré les capacités de planification des grands modèles linguistiques (LLM), mais la base théorique de leur efficacité reste encore mal comprise. Dans ce travail, nous étudions les avantages et les limites du RL à l’aide d’une abstraction graphique simplifiée, en nous concentrant sur les méthodes de gradient de politique (PG) et d’apprentissage Q. Nos analyses théoriques révèlent que le fine-tuning supervisé (SFT) peut introduire des solutions artificielles basées sur les co-occurrences, tandis que le RL parvient à une planification correcte principalement grâce à l’exploration, soulignant ainsi le rôle clé de l’exploration dans l’amélioration de la généralisation. Toutefois, nous montrons également que le PG souffre d’un phénomène de « collapsus de diversité », caractérisé par une diminution de la diversité des sorties au cours de l’entraînement, phénomène qui persiste même après avoir atteint une précision parfaite. À l’inverse, l’apprentissage Q présente deux avantages majeurs : l’apprentissage hors politique (off-policy) et la préservation de la diversité au point de convergence. Nous démontrons également que la conception soigneuse de la récompense est essentielle pour éviter le « hacking de récompense » dans l’apprentissage Q. Enfin, en appliquant notre cadre au benchmark de planification réel Blocksworld, nous confirmons que ces comportements se manifestent effectivement dans des situations pratiques.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.