Command Palette
Search for a command to run...
MarsRL : Progresser vers un système de raisonnement multi-agents grâce à l'apprentissage par renforcement avec parallélisme de pipeline agencent
Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

Résumé
Les progrès récents des grands modèles linguistiques (LLM) ont été accélérés par l’apprentissage par renforcement à récompenses vérifiables (RLVR) et par l’agrandissement à l’époque d’inférence. Toutefois, la longueur limitée des sorties des LLM restreint la profondeur de raisonnement atteignable en une seule phase d’inférence. Les systèmes de raisonnement multi-agents offrent une solution prometteuse en utilisant plusieurs agents — Solveur, Vérificateur et Correcteur — pour affiner itérativement les solutions. Bien qu’efficaces dans les modèles à code fermé comme Gemini 2.5 Pro, ces approches peinent à s’adapter aux modèles open-source en raison d’une capacité insuffisante de critique et de correction. Pour remédier à ce problème, nous proposons MarsRL, un nouveau cadre d’apprentissage par renforcement basé sur une parallélisation en pipeline agente, conçu pour optimiser conjointement tous les agents du système. MarsRL introduit des mécanismes de récompense spécifiques à chaque agent afin de réduire le bruit de récompense, et adopte une stratégie d’entraînement inspirée du pipeline pour améliorer l’efficacité dans la gestion des trajectoires longues. Appliqué au modèle Qwen3-30B-A3B-Thinking-2507, MarsRL améliore le taux de précision sur AIME2025 de 86,5 % à 93,3 %, et sur BeyondAIME de 64,9 % à 73,8 %, dépassant même les performances du modèle Qwen3-235B-A22B-Thinking-2507. Ces résultats mettent en évidence le potentiel de MarsRL pour faire progresser les systèmes de raisonnement multi-agents et élargir leur application à diverses tâches de raisonnement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.