Command Palette
Search for a command to run...
Vers une vision unifiée de l'après-formation des grands modèles linguistiques

Résumé
Deux sources majeures de données d’entraînement existent pour les modèles linguistiques modernes post-entraînés : des données en ligne (obtenues par des tirages générés par le modèle) et des données hors ligne (démonstrations humaines ou provenant d’autres modèles). Ces deux types de données sont généralement utilisés, respectivement, par des approches telles que l’apprentissage par renforcement (RL) et le fine-tuning supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais constituent en réalité des instances d’un même processus d’optimisation. Nous dérivons un estimateur unifié du gradient de politique, et présentons le calcul de diverses approches de post-entraînement comme le gradient d’un objectif commun, sous différentes hypothèses sur la distribution des données et divers compromis biais-variance. L’estimateur de gradient est construit à partir de quatre composants interchangeables : un masque de stabilisation, un dénominateur politique de référence, une estimation de l’avantage et un gradient de vraisemblance. Inspirés par nos résultats théoriques, nous proposons Hybrid Post-Training (HPT), un algorithme qui sélectionne dynamiquement différents signaux d’entraînement. HPT est conçu pour permettre une exploitation efficace des démonstrations tout en assurant une exploration stable, sans compromettre les schémas de raisonnement appris. Nous présentons des expériences étendues ainsi que des études d’ablation afin de valider l’efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux jeux de données hors distribution, HPT surpasse de manière cohérente des baselines fortes, quel que soit l’échelle ou la famille des modèles utilisés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.