HyperAI

Résumé

Nous proposons une méthode de partage de paramètres pour les Transformers (Vaswani et al., 2017). L’approche proposée affaiblit une technique largement utilisée, qui consiste à partager les paramètres d’une couche avec toutes les autres couches, comme dans les Universal Transformers (Dehghani et al., 2019), afin d’améliorer l’efficacité en temps de calcul. Nous proposons trois stratégies : Sequence, Cycle et Cycle (rev), pour attribuer les paramètres à chaque couche. Les résultats expérimentaux montrent que les stratégies proposées sont efficaces en termes de taille des paramètres et de temps de calcul. En outre, nous démontrons que ces stratégies restent performantes dans des configurations utilisant de grandes quantités de données d’entraînement, telles que celles rencontrées dans les récents concours WMT.

Résumé

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Leçons sur le partage de paramètres entre les couches dans les Transformers

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Leçons sur le partage de paramètres entre les couches dans les Transformers

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Leçons sur le partage de paramètres entre les couches dans les Transformers

Sho Takase Shun Kiyono

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters