Réexaminer le couplage des plongements dans les modèles de langage pré-entraînés

Nous réévaluons la pratique standard consistant à partager les poids entre les plongements d'entrée et de sortie dans les modèles de langage pré-entraînés de pointe. Nous montrons que les plongements décorrélés offrent une flexibilité de modélisation accrue, nous permettant d'améliorer considérablement l'efficacité de l'allocation des paramètres dans le plongement d'entrée des modèles multilingues. En réallouant les paramètres du plongement d'entrée aux couches Transformer, nous obtenons des performances nettement meilleures sur les tâches standard de compréhension du langage naturel avec le même nombre de paramètres lors du fine-tuning. Nous démontrons également que l'allocation d'une capacité supplémentaire au plongement de sortie apporte des avantages au modèle qui persistent jusqu'à l'étape de fine-tuning, bien que le plongement de sortie soit abandonné après la pré-entraîne. Notre analyse montre que des plongements de sortie plus importants empêchent les dernières couches du modèle de se spécialiser excessivement pour la tâche de pré-entraînement et encouragent les représentations Transformer à être plus générales et plus transférables vers d'autres tâches et langues. En exploitant ces constatations, nous sommes en mesure d'entraîner des modèles qui obtiennent d'excellentes performances sur le benchmark XTREME sans augmenter le nombre de paramètres lors du fine-tuning.