HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours

MarsRL : Progresser vers un système de raisonnement multi-agents grâce à l'apprentissage par renforcement avec parallélisme de pipeline agencent

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

MarsRL : Progresser vers un système de raisonnement multi-agents grâce à l'apprentissage par renforcement avec parallélisme de pipeline agencent

Résumé

Les progrès récents des grands modèles linguistiques (LLM) ont été accélérés par l’apprentissage par renforcement à récompenses vérifiables (RLVR) et par l’agrandissement à l’époque d’inférence. Toutefois, la longueur limitée des sorties des LLM restreint la profondeur de raisonnement atteignable en une seule phase d’inférence. Les systèmes de raisonnement multi-agents offrent une solution prometteuse en utilisant plusieurs agents — Solveur, Vérificateur et Correcteur — pour affiner itérativement les solutions. Bien qu’efficaces dans les modèles à code fermé comme Gemini 2.5 Pro, ces approches peinent à s’adapter aux modèles open-source en raison d’une capacité insuffisante de critique et de correction. Pour remédier à ce problème, nous proposons MarsRL, un nouveau cadre d’apprentissage par renforcement basé sur une parallélisation en pipeline agente, conçu pour optimiser conjointement tous les agents du système. MarsRL introduit des mécanismes de récompense spécifiques à chaque agent afin de réduire le bruit de récompense, et adopte une stratégie d’entraînement inspirée du pipeline pour améliorer l’efficacité dans la gestion des trajectoires longues. Appliqué au modèle Qwen3-30B-A3B-Thinking-2507, MarsRL améliore le taux de précision sur AIME2025 de 86,5 % à 93,3 %, et sur BeyondAIME de 64,9 % à 73,8 %, dépassant même les performances du modèle Qwen3-235B-A22B-Thinking-2507. Ces résultats mettent en évidence le potentiel de MarsRL pour faire progresser les systèmes de raisonnement multi-agents et élargir leur application à diverses tâches de raisonnement.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MarsRL : Progresser vers un système de raisonnement multi-agents grâce à l'apprentissage par renforcement avec parallélisme de pipeline agencent | Articles de recherche | HyperAI