Command Palette
Search for a command to run...
PVPO : Optimisation de politique basée sur la valeur pré-estimée pour le raisonnement agissant
Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

Résumé
Les méthodes d'apprentissage par renforcement exemptes de critiques, en particulier celles fondées sur des politiques groupées, ont suscité un intérêt croissant en raison de leur efficacité dans des tâches complexes. Toutefois, ces approches reposent fortement sur un échantillonnage multiple et des comparaisons internes à la politique pour estimer l’avantage, ce qui peut entraîner un piégeage dans des optima locaux et augmenter le coût computationnel. Pour remédier à ces problèmes, nous proposons PVPO, une méthode d’apprentissage par renforcement efficace, améliorée par un référentiel d’avantage et un pré-échantillonnage des données. Plus précisément, nous utilisons un modèle de référence pour effectuer des simulations (rollout) à l’avance, et utilisons le score de récompense calculé comme ancrage de référence. Notre approche corrige efficacement le biais cumulatif introduit par les comparaisons intra-groupe et réduit fortement la dépendance au nombre de simulations. Par ailleurs, le modèle de référence permet d’évaluer la difficulté des échantillons lors du pré-échantillonnage, permettant ainsi une sélection efficace des données à fort potentiel d’amélioration, ce qui améliore significativement l’efficacité d’entraînement. Des expériences menées sur neuf jeux de données répartis sur deux domaines montrent que PVPO atteint des performances de pointe (State-of-the-Art, SOTA). Notre méthode démontre non seulement une généralisation robuste sur plusieurs tâches, mais aussi une performance évolutive (scalable) sur des modèles de tailles variées.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.