HyperAIHyperAI

Command Palette

Search for a command to run...

Révélation des secrets de DeepSeek : entraînement coûteux, raisonnement renforcé par l'IA

Le modèle d’intelligence artificielle DeepSeek-R1, lancé en janvier, a provoqué une forte réaction sur les marchés boursiers américains avant de susciter un vif intérêt dans la communauté scientifique. Contrairement aux craintes selon lesquelles il aurait été entraîné sur les sorties d’autres modèles de langage, DeepSeek affirme que R1 n’a pas copié les exemples générés par ses concurrents. Cette déclaration est confirmée par un article publié dans Nature, qui présente une version révisée et peer-reviewée du modèle. R1, conçu pour exceller dans les tâches de raisonnement comme les mathématiques et la programmation, est un modèle « à poids ouverts », disponible gratuitement sur Hugging Face, où il a été téléchargé plus de 10,9 millions de fois, devenant ainsi le modèle open-source le plus populaire à ce jour. Le coût d’entraînement de R1 s’élève à environ 294 000 dollars, une somme très inférieure aux dizaines de millions dépensés par des entreprises comme OpenAI. Ce faible coût s’explique par l’utilisation de 512 puces Nvidia H800, malgré l’interdiction américaine de leur vente en Chine. La grande innovation de DeepSeek réside dans son approche par apprentissage par renforcement pur (RL), qui récompense le modèle pour des réponses correctes plutôt que de l’entraîner sur des exemples humains annotés. Cette méthode, appelée Group Relative Policy Optimization (GRPO), permet au modèle d’explorer librement des stratégies de raisonnement, sans être limité par les schémas humains. Il apprend ainsi à vérifier ses propres réponses, à réfléchir de manière autonome et à explorer plusieurs approches, ce qui a conduit à une performance remarquable sur des épreuves comme l’AIME (examen américain de mathématiques), où R1 a atteint un taux de réussite de 86,7 %, surpassant même les meilleurs humains. Le modèle DeepSeek-R1-Zero, une version initiale sans supervision humaine, a montré une évolution naturelle au fil de l’entraînement : son temps de réflexion augmente, ses réponses s’allongent, et des comportements complexes comme la réflexion critique émergent spontanément. Cependant, R1-Zero souffre de problèmes de lisibilité, de mélange de langues (anglais et chinois) et de performances limitées en dehors des tâches de raisonnement. Pour corriger cela, DeepSeek a développé R1 via un pipeline multistage combinant RL, échantillonnage par rejet et fine-tuning supervisé, intégrant des données non raisonnées pour améliorer la génération de texte et l’alignement avec les préférences humaines. R1 a été évalué sur de nombreux benchmarks, notamment MMLU, SWE-bench et AIME, et se distingue par une performance élevée, notamment sur les tâches de codage et de mathématiques. Toutefois, des limitations subsistent : faible efficacité en termes de tokens, difficulté à utiliser des outils externes, sensibilité aux prompts, et risques éthiques liés aux attaques de « jailbreak ». DeepSeek souligne que son modèle, bien que performant, reste à un niveau de sécurité modéré, comparable à GPT-4o, mais amélioré grâce à un système de contrôle des risques. L’approche par RL pur ouvre la voie à des modèles capables de dépasser les humains dans des domaines vérifiables, mais soulève des défis pour les tâches complexes où les récompenses fiables sont difficiles à définir. En publiant ses données et modèles, DeepSeek encourage une recherche plus transparente et rigoureuse, une norme saluée par la communauté scientifique comme essentielle pour évaluer les risques et l’évolution de l’IA.

Liens associés