il y a 23 jours

Le potentiel de l'optimisation du second ordre pour les modèles de langage : une étude basée sur le Gauss-Newton complet

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

Résumé

Les récents efforts visant à accélérer l'entraînement préalable des modèles de langage à grande échelle (LLM) se sont concentrés sur des approximations à faible coût computationnel, exploitant la structure du second ordre. Cela soulève une question fondamentale pour l'entraînement à grande échelle : quelle perte de performance est-elle induite par ces approximations ? Pour examiner cette question, nous établissons une borne supérieure pratique sur la complexité itérative en appliquant une préconditionnement complet du type Gauss-Newton (GN) à des modèles Transformer de taille allant jusqu'à 150 millions de paramètres. Nos expériences montrent que les mises à jour complètes GN permettent des gains substantiels par rapport aux optimiseurs existants, réduisant le nombre d'itérations d'entraînement de 5,4 fois par rapport à des références solides telles que SOAP ou Muon. En outre, nous constatons qu’un préconditionneur GN précis par couche, qui ignore les informations croisées entre couches, atteint presque la performance du méthode GN complète. Collectivement, nos résultats suggèrent que : (1) l’approximation GN est très efficace pour la précondition, ce qui implique que les termes du second ordre de la fonction de perte pourraient ne pas être critiques pour la vitesse de convergence ; (2) la structure de la hessienne par couche contient suffisamment d’information pour atteindre la majeure partie des gains potentiels ; et (3) un écart significatif existe entre les méthodes approximatives actuelles et un oracle idéalisé par couche.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Le potentiel de l'optimisation du second ordre pour les modèles de langage : une étude basée sur le Gauss-Newton complet

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

Résumé

Construire l'IA avec l'IA

Hyper Newsletters