Command Palette
Search for a command to run...
DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement
Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Résumé
Le raisonnement général constitue un défi ancien et redoutable en intelligence artificielle (IA). Les progrès récents, illustrés par les grands modèles linguistiques (LLM)1,2 et la technique de pilotage par chaîne de raisonnement (CoT)3, ont permis des succès notables sur des tâches fondamentales de raisonnement. Toutefois, ce succès reste fortement dépendant de nombreuses démonstrations annotées par des humains, et les capacités des modèles restent insuffisantes pour résoudre des problèmes plus complexes. Dans cette étude, nous montrons que les capacités de raisonnement des LLM peuvent être stimulées par un apprentissage par renforcement (RL) pur, éliminant ainsi la nécessité de trajectoires de raisonnement étiquetées par des humains. Le cadre de RL proposé favorise l’émergence de schémas de raisonnement avancés, tels que la réflexion autonome, la vérification et l’adaptation dynamique des stratégies. En conséquence, le modèle entraîné obtient des performances supérieures sur des tâches vérifiables, telles que les mathématiques, les concours de programmation et les domaines scientifiques, techniques, mathématiques et médicaux (STEM), dépassant ainsi ses homologues entraînés par apprentissage supervisé classique à partir de démonstrations humaines. En outre, les schémas de raisonnement émergents observés chez ces grands modèles peuvent être systématiquement exploités pour guider et améliorer les capacités de raisonnement des modèles plus petits.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.