HyperAIHyperAI

Command Palette

Search for a command to run...

Cluster-Former : Transformer Éparse à Base de Clustering pour l'Encodage des Dépendances à Longue Portée

Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu

Résumé

Le modèle Transformer est devenu omniprésent dans le domaine du deep learning. L’un des éléments clés qui ont assuré son succès réside dans le mécanisme d’attention auto-associative, permettant une encodage contextuel entièrement connecté des tokens d’entrée. Toutefois, malgré son efficacité dans la modélisation des séquences courtes, l’attention auto-associative peine à traiter des entrées présentant des dépendances à longue portée, en raison de sa complexité quadratique par rapport à la longueur de la séquence. Par conséquent, les séquences longues sont généralement encodées par le Transformer par morceaux, en utilisant une fenêtre glissante. Dans cet article, nous proposons Cluster-Former, un nouveau modèle Transformer à sparse basé sur le regroupement (clustering), conçu pour effectuer l’attention entre séquences segmentées. Le cadre proposé repose sur deux types uniques de couche Transformer : la couche Fenêtre Glissante et la couche Cluster-Former, qui encodent de manière conjointe et itérative les informations locales de la séquence et le contexte global. Cette nouvelle architecture permet une intégration d’informations au-delà des fenêtres locales, ce qui est particulièrement avantageux pour les tâches de réponse à questions (QA) reposant sur des dépendances à longue portée. Les expérimentations montrent que Cluster-Former atteint des performances de pointe sur plusieurs benchmarks majeurs de QA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp