HyperAIHyperAI

Command Palette

Search for a command to run...

Back to Headlines

BroRL révolutionne l’apprentissage par renforcement : en lançant des centaines de parcours exploratoires, il brise les plafonds de performance des modèles linguistiques

il y a 12 jours

Lors de l’entraînement des modèles linguistiques à grande échelle (LLM) par apprentissage par renforcement à partir de récompenses vérifiables (RLVR), une question centrale reste la surmontabilité des plafonds de performance. La méthode précédente de NVIDIA Research, Prolonged Reinforcement Learning (ProRL), avait montré que prolonger le nombre d’étapes d’apprentissage pouvait étendre les capacités de raisonnement des modèles. Toutefois, après plusieurs milliers d’étapes, les gains se sont stabilisés, voire dégradés, indiquant un plafond potentiellement fondamental. Cette limitation n’était peut-être pas intrinsèque à l’apprentissage par renforcement, mais plutôt due à une stratégie d’échelle insuffisante. Aujourd’hui, NVIDIA présente Broadened Reinforcement Learning (BroRL), une nouvelle approche qui explore une dimension complémentaire du scaling : le scaling des rollouts. Contrairement à l’augmentation du nombre d’étapes, BroRL multiplie le nombre de trajectoires exploratoires par prompt jusqu’à des niveaux de l’ordre de 512, permettant ainsi de franchir les plafonds de performance où les méthodes précédentes stagnent. BroRL repose sur une idée fondamentale : la stabilité du signal d’apprentissage dépend moins de la durée d’entraînement que de la qualité et de l’étendue de l’exploration. Dans ProRL, avec seulement 16 rollouts par prompt (N=16), le bruit provenant des chemins non explorés crée une force de rappel vers des performances inférieures, freinant l’ascension. BroRL résout ce problème en envoyant un « armée » de 512 scouts, ce qui réduit le bruit aléatoire par moyennage. L’analyse théorique montre que, pour de grandes valeurs de N, le signal net d’amélioration devient positif, stabilisant ainsi l’apprentissage et permettant une progression continue. Les résultats expérimentaux sont convaincants. En appliquant BroRL à un modèle ProRLv2 déjà saturé après 3 000 étapes, BroRL a permis une amélioration constante sur des benchmarks de raisonnement comme Math, Code et Reasoning Gym, tandis que ProRL stagne et dégrade. En seulement 98,1 heures, BroRL dépassait les scores finaux de ProRL, en 35 heures de moins. Le modèle de 1,5 milliard de paramètres entraîné avec BroRL établit un nouveau record, atteignant 63,66 en Math, 56,64 en Code et 63,40 en Reasoning Gym. En outre, BroRL est plus efficace en ressources. Grâce à un meilleur équilibre entre exploration et efficacité, il produit des raisonnements plus concis, réduisant de 745 tokens en Math et 717 en Code, tout en améliorant les scores. Cela montre une meilleure efficacité en termes de score par token, en déconnectant la qualité de la longueur de la réponse. BroRL prouve que les plafonds observés dans l’entraînement par renforcement ne sont pas des limites fondamentales, mais des conséquences d’une exploration insuffisante. L’ajout de rollouts, plutôt que d’étapes, est une stratégie plus puissante et plus efficace. Pour les chercheurs et ingénieurs, cela signifie : quand on atteint un mur, il ne s’agit pas de pousser plus fort, mais d’aller plus large. Le modèle BroRL est disponible sur Hugging Face pour expérimentation et évaluation.

Related Links

BroRL révolutionne l’apprentissage par renforcement : en lançant des centaines de parcours exploratoires, il brise les plafonds de performance des modèles linguistiques | Dernières nouvelles | HyperAI