R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Les modèles linguistiques à grande échelle (LLM) auto-évoluant offrent une voie évolutive vers une super-intelligence en générant, affinant et apprenant autonomement à partir de leurs propres expériences. Toutefois, les méthodes actuelles de formation de ces modèles reposent encore fortement sur des tâches et des étiquettes soigneusement sélectionnées par l’humain, généralement via une adaptation fine ou un apprentissage par renforcement, ce qui constitue une limitation fondamentale pour l’avancement des systèmes d’IA vers des capacités dépassant celles de l’humain. Pour surmonter cette contrainte, nous introduisons R-Zero, un cadre entièrement autonome capable de générer ses propres données d’entraînement dès le départ. À partir d’un seul modèle LLM de base, R-Zero initialise deux modèles indépendants aux rôles distincts : un Challenger (défieur) et un Solver (solveur). Ces deux modèles sont optimisés séparément et évoluent conjointement par interaction : le Challenger est récompensé pour proposer des tâches situées à la limite des capacités du Solver, tandis que le Solver est récompensé pour résoudre des tâches de plus en plus difficiles proposées par le Challenger. Ce processus permet de construire une formation ciblée et auto-améliorante, sans aucune tâche ou étiquette préexistantes. Expérimentalement, R-Zero améliore de manière significative la capacité de raisonnement sur différents modèles de base LLM, par exemple en augmentant de +6,49 les performances sur des benchmarks de raisonnement mathématique et de +7,54 sur des benchmarks de raisonnement généralistes pour le modèle Qwen3-4B-Base.