PromptCoT 2.0 : Échelle de la synthèse de prompts pour le raisonnement des modèles linguistiques à grande échelle

Les grands modèles linguistiques (LLM) évoluent progressivement de systèmes conversationnels vers des raisonneurs performants pour des tâches telles que les mathématiques olympiques ou la programmation compétitive. Bien que l’augmentation du nombre de paramètres et du calcul à l’exécution aient permis des avancées significatives, un goulot d’étranglement majeur réside dans le manque de problèmes de formation de haute qualité : les jeux de données curatifs humains sont coûteux et limités, tandis que les corpus synthétiques existants sont souvent trop faciles ou trop étroits. PromptCoT 1.0 a montré que l’intégration de raisonnements dans la synthèse des prompts augmente effectivement la difficulté des problèmes. S’appuyant sur cette observation, nous présentons PromptCoT 2.0, un cadre évolutif qui remplace les heuristiques manuelles par une boucle d’optimisation par maximisation de l’espérance (EM), où les raisonnements sont itérativement affinés afin de guider la construction des prompts. Ce processus produit des problèmes à la fois plus difficiles et plus diversifiés que les corpus antérieurs. Ces prompts synthétiques soutiennent deux régimes de post-formation : (1) le Self-Play, où des modèles puissants s’améliorent de manière autonome grâce à un retour vérifiable, sans nécessiter d’enseignants plus forts ; et (2) la fine-tuning supervisé (SFT), où des modèles plus faibles apprennent à partir de traces distillées par un enseignant. Des expériences étendues démontrent l’efficacité de cette approche. Dans le cadre du Self-Play, l’application de PromptCoT 2.0 à Qwen3-30B-A3B-Thinking-2507 établit de nouveaux records au niveau de la taille de 30B, avec des gains respectifs de +4,4, +4,8 et +5,3 sur AIME 24/25 et HMMT 25, +6,1 et +5,0 sur LiveCodeBench v5/v6, ainsi que +35 Elo sur Codeforces. En SFT, l’entraînement de Qwen2.5-7B-Instruct uniquement sur des prompts synthétiques permet d’atteindre une précision de 73,1 (AIME 24), 65,6 (AIME 25) et 53,4 (LiveCodeBench v5), dépassant même les modèles entraînés sur des données humaines ou hybrides. Des analyses complémentaires confirment que PromptCoT 2.0 génère des problèmes fondamentalement plus difficiles et distributivement distincts. Ces résultats établissent la synthèse de prompts comme un nouvel axe d’échelle du raisonnement et positionnent PromptCoT 2.0 comme une base évolutivement robuste pour les modèles open-source futurs. Le code source est disponible à l’adresse suivante : [URL].