HyperAIHyperAI
il y a 3 mois

Leçons sur le partage de paramètres entre les couches dans les Transformers

Sho Takase, Shun Kiyono
Leçons sur le partage de paramètres entre les couches dans les Transformers
Résumé

Nous proposons une méthode de partage de paramètres pour les Transformers (Vaswani et al., 2017). L’approche proposée affaiblit une technique largement utilisée, qui consiste à partager les paramètres d’une couche avec toutes les autres couches, comme dans les Universal Transformers (Dehghani et al., 2019), afin d’améliorer l’efficacité en temps de calcul. Nous proposons trois stratégies : Sequence, Cycle et Cycle (rev), pour attribuer les paramètres à chaque couche. Les résultats expérimentaux montrent que les stratégies proposées sont efficaces en termes de taille des paramètres et de temps de calcul. En outre, nous démontrons que ces stratégies restent performantes dans des configurations utilisant de grandes quantités de données d’entraînement, telles que celles rencontrées dans les récents concours WMT.