HyperAI
Back to Headlines

Qwen3-32B entraîné en RL atteint le premier rang des agents Qwen3 sur TerminalBench

il y a 4 jours

Ce projet, intitulé "Terminal-Bench-RL", vise à entraîner des agents de terminal à long terme en utilisant l'apprentissage par renforcement (RL). Il s'appuie sur le framework rLLM développé par le Sky Lab de l'Université de Berkeley et intègre des environnements et des infrastructures personnalisés pour optimiser l'entraînement des agents en environnement terminal. L'objectif principal est de créer un agent capable de résoudre des tâches complexes dans un terminal, en utilisant des outils spécifiques et une architecture adaptée. Le développeur a utilisé une infrastructure puissante, incluant 32 unités H100, réparties sur un cluster de 4 nœuds, pour entraîner le modèle Qwen3-32B. Cependant, en raison du coût élevé de cette ressource, l'entraînement a été limité. Des tests ont également été réalisés sur des configurations moins coûteuses, comme 2 nœuds A100 ou 16 unités H100, afin d'assurer la stabilité du code sur différents matériels. Un des plus longs entraînements a été effectué sur 2 A100, avec le modèle Qwen3-8B, pour plus de 60 étapes. Le projet a permis à l'agent Qwen3-32B de se classer 19e sur le leaderboard de TerminalBench, avec un score de 13,75 %. Cet agent a surpassé plusieurs modèles de référence, comme Terminus-Qwen3-235B-30A MoE, Deepseek R1 et GPT-4.1 avec Codex. Pour cela, le développeur a conçu des outils inspirés de Claude Code, qui permettent à l'agent d'effectuer des tâches de terminal et de code de manière efficace. Ces outils incluent des commandes bash, des opérations sur les fichiers, et des APIs spécifiques pour des fonctions avancées. L'agent utilise une architecture basée sur des formats structurés comme XML ou YAML pour communiquer et exécuter des actions de manière fiable. Un message système a été créé pour guider l'agent vers des pratiques optimales, comme la planification de tâches, la vérification des résultats et l'optimisation des ressources. Ces éléments combinés à l'efficacité du modèle Qwen3-32B ont permis d'atteindre ce score. Pour l'entraînement, le projet utilise GRPO (Group Relative Policy Optimization), une méthode adaptée aux tâches nécessitant une réflexion structurée. Les récompenses sont calculées à partir de deux approches : la vérification des réponses (65 % du poids) et l'évaluation par un LLM-juge (35 % du poids). Un système d'évaluation a été développé pour tester la performance des modèles juges, comme Claude Sonnet 4, Claude 3.5 Haiku, Qwen3 Coder, Devstral Medium et Kimi K2. Claude Sonnet 4 s'est révélé le plus précis, malgré un taux de réussite similaire aux autres modèles. L'infrastructure permet également de basculer dynamiquement entre différents modèles juges, en cas de surcharge ou de limites de tokens. Le projet intègre également une pipeline de génération de données synthétiques, utilisant Claude Code et Opus-4, pour créer et valider 331 tâches d'entraînement, allant de simples à très complexes. Ces données sont structurées dans un fichier CSV et converties en format Parquet pour être utilisées par le framework rLLM. L'environnement d'entraînement génère plusieurs rollouts parallèles, chaque trajectoire étant exécutée dans un conteneur Docker isolé. Après l'exécution, les fonctions de test sont exécutées pour évaluer les résultats, puis les conteneurs sont supprimés pour libérer les ressources. Des configurations prédéfinies permettent d'adapter l'entraînement à différents matériels, allant des configurations de développement à des environnements de production. En termes d'évaluation, ce projet démontre un potentiel élevé, mais reste limité par les contraintes de budget. Avec un entraînement complet sur des ressources plus importantes, l'agent pourrait probablement atteindre des scores bien plus élevés. Des améliorations futures incluent l'implémentation d'un apprentissage par curriculum, l'élargissement du jeu de données et une filtration plus intelligente des données. Le développeur souligne que le projet est une base solide, mais manque encore d'une infrastructure suffisamment puissante pour atteindre son plein potentiel.

Related Links