HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement par auto-distillation

Résumé

Les grands modèles linguistiques sont de plus en plus post-entraînés à l’aide de l’apprentissage par renforcement dans des domaines vérifiables tels que le code et les mathématiques. Pourtant, les méthodes actuelles d’apprentissage par renforcement à récompense vérifiable (RLVR) ne tirent d’information que d’une récompense scalaire par tentative, ce qui crée un goulot d’étranglement sévère dans l’affectation des responsabilités. De nombreux environnements vérifiables fournissent en réalité des retours textuels riches, tels que des erreurs d’exécution ou des évaluations par un juge, qui expliquent pourquoi une tentative a échoué. Nous formalisons ce cadre comme un apprentissage par renforcement avec retour riche, et introduisons Self-Distillation Policy Optimization (SDPO), une méthode qui transforme les retours tokenisés en un signal d’apprentissage dense, sans recourir à un enseignant externe ni à un modèle explicite de récompense. SDPO considère le modèle actuel conditionné au retour comme un auto-enseignant, et distille ses prédictions du token suivant, informées par le retour, vers la politique elle-même. Ainsi, SDPO exploite la capacité du modèle à identifier rétrospectivement ses propres erreurs dans le contexte. Sur des tâches de raisonnement scientifique, d’utilisation d’outils et de programmation compétitive sur LiveCodeBench v6, SDPO améliore l’efficacité échantillonnage et la précision finale par rapport à des baselines RLVR performantes. Notamment, SDPO surpasse également les baselines dans des environnements RLVR standards, qui ne renvoient qu’un retour scalaire, en utilisant les trajectoires réussies comme un retour implicite pour les tentatives infructueuses. Enfin, l’application de SDPO à chaque question au moment du test accélère la découverte sur des tâches à récompense binaire difficiles, atteignant la même probabilité de découverte que les méthodes « best-of-k » ou les conversations multi-tours, tout en nécessitant trois fois moins d’essais.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage par renforcement par auto-distillation | Articles | HyperAI