Avec Un Coût De Formation De 294 000 $, DeepSeek-R1 a Fait La Couverture De Nature, Devenant Ainsi Le Premier Modèle Grand Public À Grande Échelle À Passer l'examen Par Les Pairs Dans Une Revue Faisant Autorité Et À Recevoir Des Critiques positives.

Le 17 septembre, les résultats de recherche liés à DeepSeek-R1 ont fait la une de Nature, suscitant rapidement de vives discussions au sein de la communauté universitaire mondiale. D'ailleurs, ces résultats avaient déjà été publiés sous forme de prépublication sur arXiv en janvier dernier.Cependant, l’importance de la publication de cet article dans Nature réside dans le fait qu’il a été évalué par des pairs de cette revue faisant autorité.En d’autres termes, les experts externes ne reçoivent pas seulement des informations à sens unique, mais peuvent poser des questions et demander plus d’informations à l’équipe d’auteurs grâce à un processus collaboratif sous la supervision et la gestion d’un tiers indépendant (éditeur), ce qui est une première dans l’industrie.
Plus important encore, contrairement à l'article préliminaire publié en janvier qui décrivait les méthodes de recherche et les performances de DeepSeek-R1 lors d'une série de tests d'évaluation, cet article publié officiellement divulguait plus en détail le coût d'apprentissage du modèle. Selon un article de Nature News,Le coût de formation de DeepSeek-R1 équivaut seulement à 294 000 USD.Bien que DeepSeek ait investi environ 6 millions de dollars dans le LLM sous-jacent sur lequel le modèle R1 est basé, le coût total est toujours bien inférieur aux dizaines de millions de dollars généralement estimés dans l'industrie comme étant nécessaires à la formation du modèle principal.
* Adresse de préimpression :
https://hyper.ai/cn/papers/2504.07128

DeepSeek a indiqué que l'entraînement de DeepSeek-R1-Zero a nécessité 648 GPU H800, soit environ 198 heures. De plus, l'entraînement de DeepSeek-R1 a également nécessité 648 GPU H800, soit environ 4 jours, soit 80 heures. La création du jeu de données SFT a également nécessité environ 5 000 heures GPU. Les coûts spécifiques sont indiqués dans la figure ci-dessus.
L'apprentissage par renforcement à grande échelle améliore les capacités de raisonnement
L'importance des capacités de raisonnement sur des modèles à grande échelle est évidente et est devenue un axe de recherche clé dans le secteur. Cependant, l'acquisition de ces capacités en phase de pré-apprentissage nécessite souvent d'importantes ressources de calcul. À cet égard, certaines études ont montré que les capacités de LLM peuvent être efficacement améliorées grâce à l'incitation CoT (Chain-of-Thought), ou que l'apprentissage de trajectoires de raisonnement multi-étapes de haute qualité en phase post-apprentissage peut encore améliorer les performances. Malgré leur efficacité, ces méthodes présentent néanmoins des limites évidentes.Par exemple, le processus de raisonnement qui repose sur l’annotation manuelle réduit l’évolutivité et introduit des biais cognitifs.De plus, comme le modèle se limite à imiter la façon dont les humains pensent, ses performances sont essentiellement limitées par les exemples fournis par les humains et il est incapable d’explorer de meilleures voies de raisonnement qui vont au-delà des modèles de pensée humains.
Pour résoudre ce problème, DeepSeek, basé sur DeepSeek-V3 Base8, a adopté l'optimisation des politiques relatives de groupe (GRPO) comme cadre d'apprentissage par renforcement et a ignoré l'étape traditionnelle de réglage fin supervisé (SFT) avant l'apprentissage par renforcement. Ce choix de conception découlait des hypothèses de l'équipe :Les modes de raisonnement définis artificiellement peuvent limiter l'exploration du modèle, tandis qu'une formation RL sans restriction peut favoriser l'émergence de nouvelles capacités de raisonnement dans le LLM.
Sur cette base, l'équipe a développé DeepSeek-R1-Zero, qui présente des comportements de raisonnement divers et complexes. Pour résoudre les problèmes de raisonnement, le modèle tend à générer des réponses plus longues, intégrant à chaque réponse la vérification, la réflexion et l'exploration de différentes solutions. Bien que l'équipe n'ait pas explicitement enseigné au modèle comment raisonner,Mais il a quand même réussi à apprendre une meilleure stratégie de raisonnement grâce au RL.L'équipe de recherche a utilisé l'algorithme GRPO (Group Relative Policy Optimization), initialement proposé pour simplifier le processus d'apprentissage et réduire la consommation de ressources de l'optimisation proximale des politiques (PPO). Cet algorithme ne nécessite pas de modèle d'évaluation de la même taille que le modèle de politique, mais estime directement la valeur de référence à partir du score du groupe.
De plus, l'équipe a utilisé un système de récompense basé sur des règles pour calculer la précision et formater les récompenses. S'appuyant sur le GRPO et la conception des récompenses, l'équipe a conçu un modèle qui nécessite que DeepSeek-R1-Zero génère d'abord un processus d'inférence, puis fournisse une réponse finale. Lors de la formation, des questions d'inférence spécifiques ont été utilisées à la place des invites.

Plus précisément, après avoir reçu une question d'un utilisateur, le modèle génère d'abord le processus de raisonnement dans l'étiquette « Réfléchir », puis donne la réponse finale dans l'étiquette « Réponse », afin qu'il puisse explorer de manière autonome des chemins de raisonnement efficaces dans l'apprentissage par renforcement.L’équipe de recherche a utilisé un système de récompense basé sur des règles pour évaluer les réponses fournies par DeepSeek-R1-Zero dans l’expérience, garantissant ainsi la stabilité et l’évolutivité du processus de formation.
Les résultats de l'évaluation montrent que le score pass@1 de DeepSeek-R1-Zero dans le concours de mathématiques AIME 2024 s'est considérablement amélioré, passant de 15,6% initial à 77,9% ; si une stratégie de décodage auto-cohérente est adoptée, la précision est encore améliorée à 86,7%, dépassant le niveau moyen des joueurs humains.
En plus des tâches mathématiques, le modèle a également obtenu de bons résultats dans les concours de programmation et dans les problèmes de biologie, de physique et de chimie de niveau universitaire, vérifiant pleinement l'efficacité de l'apprentissage par renforcement dans l'amélioration des capacités de raisonnement des grands modèles linguistiques.

De plus, lors de l'apprentissage par renforcement, DeepSeek-R1-Zero a non seulement démontré des capacités de raisonnement progressivement plus fortes avec l'entraînement, mais a également présenté des caractéristiques d'auto-évolution évidentes. Les données expérimentales ont montré que lorsque le modèle est piloté par adaptation intrinsèque, sa longueur d'inférence moyenne augmente continuellement pendant l'entraînement et son chemin d'inférence est constamment révisé. Il est capable de mettre en pause, de réviser et de corriger proactivement les étapes d'inférence existantes pendant le processus, permettant ainsi un raisonnement réflexif et l'exploration systématique de solutions alternatives.

De plus, pour relever des défis tels que la faible lisibilité et le mélange de langues, l'équipe de recherche a développé DeepSeek-R1 afin de résoudre les problèmes de faible lisibilité et de confusion linguistique dans DeepSeek-R1-Zero. Son flux de travail est le suivant : * Basé sur DeepSeek-V3, des données conversationnelles de démarrage à froid cohérentes avec la pensée humaine sont collectées et saisies dans DeepSeek-R1 Dev1 ; * DeepSeek-R1 Dev1 effectue un apprentissage par renforcement et un échantillonnage basés sur les données, et DeepSeek-R1 Dev2 intègre des ensembles de données de raisonnement et de non-raisonnement au processus SFT ; * DeepSeek-R1 Dev3 favorise la deuxième étape d'apprentissage par renforcement pour améliorer l'utilité et l'innocuité du modèle, et fournit finalement la réponse à DeepSeek-R1.

D'après les résultats expérimentaux, comparé à DeepSeek-R1-Zero et DeepSeek-R1 Dev1, DeepSeek-R1 a considérablement amélioré les performances d'exécution des instructions à chaque étape de développement et a obtenu des scores plus élevés dans les benchmarks IF-Eval et Arena-Hard.

Le premier modèle à grande échelle à passer avec succès l'évaluation par les pairs dans une revue prestigieuse
Premier modèle de master en droit à être soumis à une évaluation par les pairs, l'article de recherche DeepSeek-R1 a fait la une de Nature dès sa publication. Dans l'article « Apportez-nous vos masters en droit : pourquoi l'évaluation par les pairs est bénéfique pour les modèles d'IA », Nature souligne que l'évaluation par les pairs constitue une mesure efficace contre le battage médiatique dans le secteur de l'IA. La quasi-totalité des modèles d'IA à grande échelle les plus répandus n'ont pas encore fait l'objet d'une évaluation indépendante par les pairs, une lacune que « DeepSeek a enfin comblée ».

À cet égard, Subbarao Kanbhampati, chercheur à l'Université de l'Arizona et ancien président de l'AAAI, a déclaré avoir participé à l'évaluation par les pairs et estimé qu'il s'agissait d'une tendance positive. Il espère voir davantage de développeurs de modèles de pointe suivre leur exemple et partager les détails techniques de l'évaluation par les pairs des modèles d'IA.

Wind Info, un média technologique américain, a indiqué que, par rapport à la version initiale publiée en janvier, l'article révèle davantage de détails sur le processus d'apprentissage du modèle et aborde directement le problème de la distillation initiale. On peut affirmer que DeepSeek-R1 fournit un modèle pour des pratiques de recherche en IA plus transparentes et standardisées à l'avenir.

Références :
1. https://www.nature.com/articles/d41586-025-03015-6
2. https://www.nature.com/articles/d41586-025-02979-9
3. https://www.nature.com/articles/s41586-025-09422