MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage conscient de la variance et à des ressources ouvertes

Les grands modèles multimodaux de raisonnement ont connu un progrès rapide, mais leur évolution est freinée par deux limitations majeures : l’absence de données à grande échelle, ouvertes et de haute qualité, sur les chaînes longues de raisonnement (long chain-of-thought, CoT), et l’instabilité des algorithmes d’apprentissage par renforcement (RL) lors de la phase de post-entraînement. Le cadre standard d’ajustage par RL, appelé Optimisation de Politique par Groupe Relatif (Group Relative Policy Optimization, GRPO), est sujet à l’effacement des gradients lorsque la variance des récompenses est faible, ce qui affaiblit les signaux d’optimisation et nuit à la convergence. Ce travail apporte trois contributions principales : (1) Nous proposons une stratégie de sélection de données appelée Échantillonnage Conscient de la Variance (Variance-Aware Sampling, VAS), guidée par un Score de Promotion de la Variance (Variance Promotion Score, VPS), qui combine la variance des résultats et la diversité des trajectoires afin de renforcer la variance des récompenses et stabiliser l’optimisation de la politique. (2) Nous mettons à disposition des ressources à grande échelle, soigneusement curatrices, comprenant environ 1,6 million de données initiales longues en CoT et environ 15 000 paires de questions-réponses (QA) en RL, conçues pour garantir qualité, difficulté et diversité, accompagnées d’un ensemble complet de code d’entraînement end-to-end entièrement reproductible. (3) Nous open-source une famille de modèles multimodaux de raisonnement à différentes échelles, établissant ainsi des références standardisées pour la communauté. Des expériences menées sur des benchmarks de raisonnement mathématique démontrent l’efficacité à la fois des données soigneusement sélectionnées et de la méthode VAS proposée. Des études d’ablation et analyses approfondies offrent des éclairages supplémentaires sur les contributions de chaque composant. En outre, nous établissons théoriquement que la variance des récompenses constitue une borne inférieure du module attendu du gradient de politique, la méthode VAS servant de mécanisme pratique pour réaliser cette garantie. Notre code, nos données et les points de contrôle sont disponibles à l’adresse suivante : https://github.com/LengSicong/MMR1.