HyperAIHyperAI

Command Palette

Search for a command to run...

PartialFormer : Modélisation de la Partie Plutôt que du Tout pour la Traduction Automatique

Tong Zheng Bei Li Huiwen Bao Jiale Wang Weiqiao Shan Tong Xiao Jingbo Zhu

Résumé

Les choix architecturaux dans les réseaux de neurones à propagation avant (feed-forward) des Transformers ont entraîné un surcroît significatif de calcul et de paramètres. Dans ce travail, nous mettons en évidence l'importance des dimensions cachées dans la conception de réseaux FFN légers, un facteur souvent négligé dans les architectures antérieures. Guidés par ce principe, nous introduisons PartialFormer, une architecture Transformer à faible coût en paramètres, qui utilise plusieurs réseaux FFN plus petits afin de réduire à la fois le nombre de paramètres et la charge computationnelle, tout en préservant les dimensions cachées essentielles. Ces réseaux FFN plus petits sont intégrés dans un mécanisme d’attention multi-têtes pour permettre une collaboration efficace. Nous proposons également une stratégie personnalisée d’échelonnement des têtes afin d’améliorer les performances de PartialFormer. En outre, nous introduisons un calcul d’attention inspiré du résiduel pour améliorer la capacité de mise à l’échelle en profondeur de PartialFormer. Des expériences étendues sur 9 tâches de traduction automatique et 1 tâche de résumé abstrait valident l’efficacité de notre approche PartialFormer sur les tâches de traduction automatique et de résumé. Le code source sera disponible à l’adresse suivante : https://github.com/zhengkid/PartialFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp