Command Palette
Search for a command to run...
Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée
Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée
Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu
Résumé
Le modèle Transformer est devenu omniprésent dans le domaine du deep learning. L’un des éléments clés qui ont assuré son succès réside dans le mécanisme d’attention auto-associative, permettant une encodage contextuel entièrement connecté des tokens d’entrée. Toutefois, malgré son efficacité dans la modélisation des séquences courtes, l’attention auto-associative peine à traiter des entrées présentant des dépendances à longue portée, en raison de sa complexité quadratique par rapport à la longueur de la séquence. Par conséquent, les séquences longues sont généralement encodées par le Transformer par morceaux, en utilisant une fenêtre glissante. Dans cet article, nous proposons Cluster-Former, un nouveau modèle Transformer à sparse basé sur le regroupement (clustering), conçu pour effectuer l’attention entre séquences segmentées. Le cadre proposé repose sur deux types uniques de couche Transformer : la couche Fenêtre Glissante et la couche Cluster-Former, qui encodent de manière conjointe et itérative les informations locales de la séquence et le contexte global. Cette nouvelle architecture permet une intégration d’informations au-delà des fenêtres locales, ce qui est particulièrement avantageux pour les tâches de réponse à questions (QA) reposant sur des dépendances à longue portée. Les expérimentations montrent que Cluster-Former atteint des performances de pointe sur plusieurs benchmarks majeurs de QA.