HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 12 jours

BAPO : Stabilisation de l'apprentissage par renforcement hors politique pour les modèles de langage grâce à l'optimisation de politique équilibrée avec découpage adaptatif

BAPO : Stabilisation de l'apprentissage par renforcement hors politique pour les modèles de langage grâce à l'optimisation de politique équilibrée avec découpage adaptatif

Résumé

L'apprentissage par renforcement (RL) est devenu récemment le paradigme central pour l'alignement et le renforcement des grands modèles linguistiques (LLM). Pourtant, l'application du RL dans des cadres hors politique (off-policy), où l'on utilise des données obsolètes issues de politiques passées pour l'entraînement, améliore l'efficacité en échantillonnage, mais demeure difficile : l'entropie de la politique diminue fortement, l'optimisation devient souvent instable, voire s'effondre. À travers une analyse théorique et empirique, nous identifions deux constatations clés : (i) un déséquilibre dans l'optimisation, où les échantillons à avantage négatif dominent le gradient de la politique, supprimant les comportements utiles et risquant des explosions de gradient ; et (ii) la règle d'entropie-clip (Entropy-Clip Rule) dérivée, qui révèle que le mécanisme de clip fixe utilisé dans les objectifs du type PPO bloque systématiquement les mises à jour augmentant l'entropie, poussant ainsi la politique vers une sur-exploitation au détriment de l'exploration. Partant de ces constatations, nous proposons BAlanced Policy Optimization with Adaptive Clipping (BAPO), une méthode simple mais efficace qui ajuste dynamiquement les bornes de clip pour rééquilibrer de manière adaptative les contributions positives et négatives, préserver l'entropie et stabiliser l'optimisation du RL. Sur diverses scénarios hors politique — y compris le réemploi d'échantillons (sample replay) et les rouleaux partiels (partial rollout) — BAPO permet un entraînement rapide, stable et à faible consommation de données. Sur les benchmarks AIME 2024 et AIME 2025, notre modèle BAPO de 7 milliards de paramètres (7B) surpasser les modèles open-source tels que SkyWork-OR1-7B, tandis que notre modèle BAPO de 32 milliards de paramètres (32B) non seulement atteint des résultats de pointe parmi les modèles de même échelle, mais dépasse également les systèmes propriétaires de pointe tels qu' o3-mini et Gemini-2.5-Flash-Thinking.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BAPO : Stabilisation de l'apprentissage par renforcement hors politique pour les modèles de langage grâce à l'optimisation de politique équilibrée avec découpage adaptatif | Articles de recherche | HyperAI