HyperAIHyperAI
il y a 10 jours

Subformer : Un Transformer à Réduction de Paramètres

{Yutaka Matsuo, Edison Marrese-Taylor, Machel Reid}
Subformer : Un Transformer à Réduction de Paramètres
Résumé

L’avènement du modèle Transformer peut sans doute être considéré comme une force motrice derrière de nombreux progrès récents en traitement du langage naturel. Toutefois, malgré leurs améliorations significatives en termes de performance, comme récemment démontré, ce modèle est sévèrement sur-paramétré, présentant une inefficacité en termes de paramètres et un coût computationnel élevé lors de l’entraînement. Inspirés par le succès du partage de paramètres dans les encodeurs pré-entraînés basés sur des représentations contextuelles profondes, nous explorons des méthodes de partage de paramètres dans les Transformers, en nous concentrant particulièrement sur les modèles encodeur-décodeur destinés aux tâches de séquence à séquence telles que la traduction automatique. Nous menons une analyse comparative de différentes stratégies de partage ou de réduction de paramètres, et proposons le Subformer, un modèle basé sur le Transformer et efficace en termes de paramètres, combinant une nouvelle technique de partage de paramètres du type « sandwich » et une factorisation d’embeddings auto-attentionnelle (SAFE). Des expériences menées sur la traduction automatique, la synthèse abstraite et le modèle de langage montrent que le Subformer peut surpasser le Transformer même en utilisant significativement moins de paramètres. Sur le jeu de test WMT'14 anglais-allemand, nous démontrons que nous pouvons atteindre des performances équivalentes, voire parfois supérieures (+0,1 point BLEU) au modèle Transformer-base tout en utilisant 40 % de paramètres en moins. Nous obtenons également des performances équivalentes au Transformer-big avec 40 % de paramètres en moins, et surpassons ce modèle de 0,7 point BLEU avec 12 millions de paramètres en moins. En outre, nous surpassons le modèle standard Transformer-XL, atteignant une perplexité significativement plus faible de 3,6 points avec 37 % de paramètres en moins.