HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement

Résumé

Le raisonnement général constitue un défi ancien et redoutable en intelligence artificielle (IA). Les progrès récents, illustrés par les grands modèles linguistiques (LLM)1,2 et la technique de pilotage par chaîne de raisonnement (CoT)3, ont permis des succès notables sur des tâches fondamentales de raisonnement. Toutefois, ce succès reste fortement dépendant de nombreuses démonstrations annotées par des humains, et les capacités des modèles restent insuffisantes pour résoudre des problèmes plus complexes. Dans cette étude, nous montrons que les capacités de raisonnement des LLM peuvent être stimulées par un apprentissage par renforcement (RL) pur, éliminant ainsi la nécessité de trajectoires de raisonnement étiquetées par des humains. Le cadre de RL proposé favorise l’émergence de schémas de raisonnement avancés, tels que la réflexion autonome, la vérification et l’adaptation dynamique des stratégies. En conséquence, le modèle entraîné obtient des performances supérieures sur des tâches vérifiables, telles que les mathématiques, les concours de programmation et les domaines scientifiques, techniques, mathématiques et médicaux (STEM), dépassant ainsi ses homologues entraînés par apprentissage supervisé classique à partir de démonstrations humaines. En outre, les schémas de raisonnement émergents observés chez ces grands modèles peuvent être systématiquement exploités pour guider et améliorer les capacités de raisonnement des modèles plus petits.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepSeek-R1 incite le raisonnement dans les modèles de langage à grande échelle par apprentissage par renforcement | Articles de recherche | HyperAI