HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Résumé

Deux sources majeures de données d’entraînement existent pour les modèles linguistiques modernes post-entraînés : des données en ligne (obtenues par des tirages générés par le modèle) et des données hors ligne (démonstrations humaines ou provenant d’autres modèles). Ces deux types de données sont généralement utilisés, respectivement, par des approches telles que l’apprentissage par renforcement (RL) et le fine-tuning supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais constituent en réalité des instances d’un même processus d’optimisation. Nous dérivons un estimateur unifié du gradient de politique, et présentons le calcul de diverses approches de post-entraînement comme le gradient d’un objectif commun, sous différentes hypothèses sur la distribution des données et divers compromis biais-variance. L’estimateur de gradient est construit à partir de quatre composants interchangeables : un masque de stabilisation, un dénominateur politique de référence, une estimation de l’avantage et un gradient de vraisemblance. Inspirés par nos résultats théoriques, nous proposons Hybrid Post-Training (HPT), un algorithme qui sélectionne dynamiquement différents signaux d’entraînement. HPT est conçu pour permettre une exploitation efficace des démonstrations tout en assurant une exploration stable, sans compromettre les schémas de raisonnement appris. Nous présentons des expériences étendues ainsi que des études d’ablation afin de valider l’efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux jeux de données hors distribution, HPT surpasse de manière cohérente des baselines fortes, quel que soit l’échelle ou la famille des modèles utilisés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers une vision unifiée de l'après-formation des grands modèles linguistiques | Articles de recherche | HyperAI