HyperAIHyperAI
il y a 9 jours

Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée

Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu
Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée
Résumé

Le modèle Transformer est devenu omniprésent dans le domaine du deep learning. L’un des éléments clés qui ont assuré son succès réside dans le mécanisme d’attention auto-associative, permettant une encodage contextuel entièrement connecté des tokens d’entrée. Toutefois, malgré son efficacité dans la modélisation des séquences courtes, l’attention auto-associative peine à traiter des entrées présentant des dépendances à longue portée, en raison de sa complexité quadratique par rapport à la longueur de la séquence. Par conséquent, les séquences longues sont généralement encodées par le Transformer par morceaux, en utilisant une fenêtre glissante. Dans cet article, nous proposons Cluster-Former, un nouveau modèle Transformer à sparse basé sur le regroupement (clustering), conçu pour effectuer l’attention entre séquences segmentées. Le cadre proposé repose sur deux types uniques de couche Transformer : la couche Fenêtre Glissante et la couche Cluster-Former, qui encodent de manière conjointe et itérative les informations locales de la séquence et le contexte global. Cette nouvelle architecture permet une intégration d’informations au-delà des fenêtres locales, ce qui est particulièrement avantageux pour les tâches de réponse à questions (QA) reposant sur des dépendances à longue portée. Les expérimentations montrent que Cluster-Former atteint des performances de pointe sur plusieurs benchmarks majeurs de QA.