il y a 2 mois

Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Voir les détails de l'article Voir le code

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang

Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Résumé

Deux sources majeures de données d’entraînement existent pour les modèles linguistiques modernes post-entraînés : des données en ligne (obtenues par des tirages générés par le modèle) et des données hors ligne (démonstrations humaines ou provenant d’autres modèles). Ces deux types de données sont généralement utilisés, respectivement, par des approches telles que l’apprentissage par renforcement (RL) et le fine-tuning supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais constituent en réalité des instances d’un même processus d’optimisation. Nous dérivons un estimateur unifié du gradient de politique, et présentons le calcul de diverses approches de post-entraînement comme le gradient d’un objectif commun, sous différentes hypothèses sur la distribution des données et divers compromis biais-variance. L’estimateur de gradient est construit à partir de quatre composants interchangeables : un masque de stabilisation, un dénominateur politique de référence, une estimation de l’avantage et un gradient de vraisemblance. Inspirés par nos résultats théoriques, nous proposons Hybrid Post-Training (HPT), un algorithme qui sélectionne dynamiquement différents signaux d’entraînement. HPT est conçu pour permettre une exploitation efficace des démonstrations tout en assurant une exploration stable, sans compromettre les schémas de raisonnement appris. Nous présentons des expériences étendues ainsi que des études d’ablation afin de valider l’efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux jeux de données hors distribution, HPT surpasse de manière cohérente des baselines fortes, quel que soit l’échelle ou la famille des modèles utilisés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang2 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang