il y a 9 jours

Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée

Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu

Résumé

Le modèle Transformer est devenu omniprésent dans le domaine du deep learning. L’un des éléments clés qui ont assuré son succès réside dans le mécanisme d’attention auto-associative, permettant une encodage contextuel entièrement connecté des tokens d’entrée. Toutefois, malgré son efficacité dans la modélisation des séquences courtes, l’attention auto-associative peine à traiter des entrées présentant des dépendances à longue portée, en raison de sa complexité quadratique par rapport à la longueur de la séquence. Par conséquent, les séquences longues sont généralement encodées par le Transformer par morceaux, en utilisant une fenêtre glissante. Dans cet article, nous proposons Cluster-Former, un nouveau modèle Transformer à sparse basé sur le regroupement (clustering), conçu pour effectuer l’attention entre séquences segmentées. Le cadre proposé repose sur deux types uniques de couche Transformer : la couche Fenêtre Glissante et la couche Cluster-Former, qui encodent de manière conjointe et itérative les informations locales de la séquence et le contexte global. Cette nouvelle architecture permet une intégration d’informations au-delà des fenêtres locales, ce qui est particulièrement avantageux pour les tâches de réponse à questions (QA) reposant sur des dépendances à longue portée. Les expérimentations montrent que Cluster-Former atteint des performances de pointe sur plusieurs benchmarks majeurs de QA.