HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Résumé

Le raisonnement général constitue un défi ancien et redoutable en intelligence artificielle (IA). Les progrès récents, illustrés par les grands modèles linguistiques (LLM)1,2 et la technique de pilotage par chaîne de raisonnement (CoT)3, ont permis des succès notables sur des tâches fondamentales de raisonnement. Toutefois, ce succès reste fortement dépendant de nombreuses démonstrations annotées par des humains, et les capacités des modèles restent insuffisantes pour résoudre des problèmes plus complexes. Dans cette étude, nous montrons que les capacités de raisonnement des LLM peuvent être stimulées par un apprentissage par renforcement (RL) pur, éliminant ainsi la nécessité de trajectoires de raisonnement étiquetées par des humains. Le cadre de RL proposé favorise l’émergence de schémas de raisonnement avancés, tels que la réflexion autonome, la vérification et l’adaptation dynamique des stratégies. En conséquence, le modèle entraîné obtient des performances supérieures sur des tâches vérifiables, telles que les mathématiques, les concours de programmation et les domaines scientifiques, techniques, mathématiques et médicaux (STEM), dépassant ainsi ses homologues entraînés par apprentissage supervisé classique à partir de démonstrations humaines. En outre, les schémas de raisonnement émergents observés chez ces grands modèles peuvent être systématiquement exploités pour guider et améliorer les capacités de raisonnement des modèles plus petits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp