il y a 3 mois

Comprendre la difficulté de l'entraînement des Transformers

Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han

Résumé

Les Transformers se sont avérés efficaces dans de nombreuses tâches de traitement du langage naturel (NLP). Toutefois, leur entraînement nécessite des efforts non négligeables en matière de conception d'optimiseurs de pointe et de planificateurs de taux d'apprentissage soigneusement ajustés (par exemple, l'optimisation par descente de gradient classique, SGD, s'avère inefficace pour entraîner les Transformers). L'objectif de cette étude est de comprendre, à la fois du point de vue empirique et théorique, ce qui complique l'entraînement des Transformers. Notre analyse révèle que des gradients déséquilibrés ne constituent pas la cause fondamentale de l'instabilité observée pendant l'entraînement. À la place, nous identifions un effet d'amplification qui influence fortement le processus d'entraînement : dans chaque couche d'un modèle Transformer à plusieurs couches, une dépendance forte par rapport à la branche résiduelle rend l'entraînement instable, car elle amplifie les petites perturbations des paramètres (par exemple, les mises à jour de paramètres), entraînant ainsi des perturbations significatives dans la sortie du modèle. Toutefois, nous observons également que trop faible dépendance limite le potentiel du modèle et conduit à des modèles entraînés de qualité inférieure. Inspirés par cette analyse, nous proposons Admin (Adaptive model initialization), une méthode visant à stabiliser l'entraînement au début de la phase d'entraînement tout en libérant tout le potentiel du modèle en phase tardive. Des expériences étendues montrent que Admin est plus stable, converge plus rapidement et conduit à de meilleures performances. Les implémentations sont disponibles à l'adresse suivante : https://github.com/LiyuanLucasLiu/Transforemr-Clinic.