il y a 2 mois

DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Résumé

Le raisonnement général constitue un défi ancien et redoutable en intelligence artificielle (IA). Les progrès récents, illustrés par les grands modèles linguistiques (LLM)1,2 et la technique de pilotage par chaîne de raisonnement (CoT)3, ont permis des succès notables sur des tâches fondamentales de raisonnement. Toutefois, ce succès reste fortement dépendant de nombreuses démonstrations annotées par des humains, et les capacités des modèles restent insuffisantes pour résoudre des problèmes plus complexes. Dans cette étude, nous montrons que les capacités de raisonnement des LLM peuvent être stimulées par un apprentissage par renforcement (RL) pur, éliminant ainsi la nécessité de trajectoires de raisonnement étiquetées par des humains. Le cadre de RL proposé favorise l’émergence de schémas de raisonnement avancés, tels que la réflexion autonome, la vérification et l’adaptation dynamique des stratégies. En conséquence, le modèle entraîné obtient des performances supérieures sur des tâches vérifiables, telles que les mathématiques, les concours de programmation et les domaines scientifiques, techniques, mathématiques et médicaux (STEM), dépassant ainsi ses homologues entraînés par apprentissage supervisé classique à partir de démonstrations humaines. En outre, les schémas de raisonnement émergents observés chez ces grands modèles peuvent être systématiquement exploités pour guider et améliorer les capacités de raisonnement des modèles plus petits.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Résumé

Construire l'IA avec l'IA

Hyper Newsletters