il y a 4 mois

Star-Transformer

Qipeng Guo; Xipeng Qiu; Pengfei Liu; Yunfan Shao; Xiangyang Xue; Zheng Zhang

Résumé

Bien que le modèle Transformer ait connu de grands succès dans de nombreuses tâches de traitement du langage naturel (NLP), sa structure lourde avec des connexions d'attention entièrement connectées entraîne une dépendance à de grandes quantités de données d'entraînement. Dans cet article, nous présentons le Star-Transformer, une alternative plus légère obtenue par une élimination soigneuse des connexions. Pour réduire la complexité du modèle, nous remplaçons la structure entièrement connectée par une topologie en étoile, dans laquelle chaque paire de nœuds non adjacents est connectée via un nœud relais partagé. Ainsi, la complexité passe d'une relation quadratique à une relation linéaire, tout en conservant la capacité de capturer à la fois les compositions locales et les dépendances à long terme. Les expériences menées sur quatre tâches (22 jeux de données) montrent que le Star-Transformer a obtenu des améliorations significatives par rapport au Transformer standard pour les jeux de données de taille modeste.