HyperAIHyperAI

Command Palette

Search for a command to run...

Fastformer : L'attention additive peut tout simplement suffire

Chuhan Wu Fangzhao Wu Tao Qi Yongfeng Huang Xing Xie

Résumé

Transformer est un modèle puissant pour la compréhension du texte. Toutefois, son efficacité est limitée par sa complexité quadratique par rapport à la longueur de la séquence d'entrée. Bien qu'il existe de nombreuses méthodes visant à accélérer les Transformers, celles-ci restent soit inefficaces pour les séquences longues, soit insuffisamment performantes. Dans cet article, nous proposons Fastformer, un modèle Transformer efficace basé sur une attention additive. Dans Fastformer, au lieu de modéliser les interactions par paires entre les tokens, nous utilisons d'abord un mécanisme d'attention additive pour capturer les contextes globaux, puis transformons ultérieurement la représentation de chaque token en fonction de son interaction avec les représentations du contexte global. Grâce à cette approche, Fastformer parvient à une modélisation contextuelle efficace avec une complexité linéaire. Des expériences étendues menées sur cinq jeux de données montrent que Fastformer est nettement plus efficace que de nombreux modèles Transformer existants, tout en atteignant des performances comparables, voire supérieures, dans la modélisation de textes longs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp