HyperAIHyperAI

Command Palette

Search for a command to run...

R-Zéro : un modèle LLM de raisonnement auto-évoluant à partir de zéro donnée

Chengsong Huang Wenhao Yu Xiaoyang Wang Hongming Zhang Zongxia Li Ruosen Li Jiaxin Huang Haitao Mi Dong Yu

Résumé

Les modèles linguistiques à grande échelle (LLM) auto-évoluant offrent une voie évolutive vers une super-intelligence en générant, affinant et apprenant autonomement à partir de leurs propres expériences. Toutefois, les méthodes actuelles de formation de ces modèles reposent encore fortement sur des tâches et des étiquettes soigneusement sélectionnées par l’humain, généralement via une adaptation fine ou un apprentissage par renforcement, ce qui constitue une limitation fondamentale pour l’avancement des systèmes d’IA vers des capacités dépassant celles de l’humain. Pour surmonter cette contrainte, nous introduisons R-Zero, un cadre entièrement autonome capable de générer ses propres données d’entraînement dès le départ. À partir d’un seul modèle LLM de base, R-Zero initialise deux modèles indépendants aux rôles distincts : un Challenger (défieur) et un Solver (solveur). Ces deux modèles sont optimisés séparément et évoluent conjointement par interaction : le Challenger est récompensé pour proposer des tâches situées à la limite des capacités du Solver, tandis que le Solver est récompensé pour résoudre des tâches de plus en plus difficiles proposées par le Challenger. Ce processus permet de construire une formation ciblée et auto-améliorante, sans aucune tâche ou étiquette préexistantes. Expérimentalement, R-Zero améliore de manière significative la capacité de raisonnement sur différents modèles de base LLM, par exemple en augmentant de +6,49 les performances sur des benchmarks de raisonnement mathématique et de +7,54 sur des benchmarks de raisonnement généralistes pour le modèle Qwen3-4B-Base.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp