HyperAIHyperAI

Command Palette

Search for a command to run...

Leçons sur le partage de paramètres entre les couches dans les Transformers

Sho Takase Shun Kiyono

Résumé

Nous proposons une méthode de partage de paramètres pour les Transformers (Vaswani et al., 2017). L’approche proposée affaiblit une technique largement utilisée, qui consiste à partager les paramètres d’une couche avec toutes les autres couches, comme dans les Universal Transformers (Dehghani et al., 2019), afin d’améliorer l’efficacité en temps de calcul. Nous proposons trois stratégies : Sequence, Cycle et Cycle (rev), pour attribuer les paramètres à chaque couche. Les résultats expérimentaux montrent que les stratégies proposées sont efficaces en termes de taille des paramètres et de temps de calcul. En outre, nous démontrons que ces stratégies restent performantes dans des configurations utilisant de grandes quantités de données d’entraînement, telles que celles rencontrées dans les récents concours WMT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp