HyperAIHyperAI

Command Palette

Search for a command to run...

Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense

Yongliang Wu Yizhou Zhou Zhou Ziheng Yingzhe Peng Xinyu Ye Xinting Hu Wenbo Zhu Lu Qi Ming-Hsuan Yang Xu Yang

Résumé

Nous présentons une amélioration simple mais fondée sur des arguments théoriques apportée au Fine-Tuning supervisé (SFT) pour les grands modèles linguistiques (LLM), visant à remédier à sa capacité de généralisation limitée par rapport à l’apprentissage par renforcement (RL). Par une analyse mathématique, nous révélons que les gradients du SFT standard encodent implicitement une structure de récompense problématique, susceptible de restreindre sévèrement les capacités de généralisation du modèle. Pour corriger ce défaut, nous proposons le Fine-Tuning dynamique (DFT), qui stabilise les mises à jour des gradients pour chaque token en redimensionnant dynamiquement la fonction objectif selon la probabilité de ce token. De manière remarquable, ce simple changement de code — une seule ligne — permet à DFT de surpasser de manière significative le SFT standard sur plusieurs benchmarks exigeants et plusieurs modèles de base, démontrant une amélioration notable de la généralisation. En outre, notre approche obtient des résultats compétitifs dans des scénarios d’apprentissage par renforcement hors ligne (offline RL), offrant ainsi une alternative efficace et plus simple. Ce travail relie une compréhension théorique fine à des solutions pratiques, marquant une avancée substantielle dans les performances du SFT. Le code sera disponible à l’adresse suivante : https://github.com/yongliang-wu/DFT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Sur la généralisation de SFT : une perspective d'apprentissage par renforcement avec rectification de récompense | Articles | HyperAI