il y a 17 jours

PartialFormer : Modélisation de la Partie Plutôt que du Tout pour la Traduction Automatique

Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu

Résumé

Les choix architecturaux dans les réseaux de neurones à propagation avant (feed-forward) des Transformers ont entraîné un surcroît significatif de calcul et de paramètres. Dans ce travail, nous mettons en évidence l'importance des dimensions cachées dans la conception de réseaux FFN légers, un facteur souvent négligé dans les architectures antérieures. Guidés par ce principe, nous introduisons PartialFormer, une architecture Transformer à faible coût en paramètres, qui utilise plusieurs réseaux FFN plus petits afin de réduire à la fois le nombre de paramètres et la charge computationnelle, tout en préservant les dimensions cachées essentielles. Ces réseaux FFN plus petits sont intégrés dans un mécanisme d’attention multi-têtes pour permettre une collaboration efficace. Nous proposons également une stratégie personnalisée d’échelonnement des têtes afin d’améliorer les performances de PartialFormer. En outre, nous introduisons un calcul d’attention inspiré du résiduel pour améliorer la capacité de mise à l’échelle en profondeur de PartialFormer. Des expériences étendues sur 9 tâches de traduction automatique et 1 tâche de résumé abstrait valident l’efficacité de notre approche PartialFormer sur les tâches de traduction automatique et de résumé. Le code source sera disponible à l’adresse suivante : https://github.com/zhengkid/PartialFormer.