HyperAIHyperAI

Command Palette

Search for a command to run...

BP-Transformer : Modélisation du contexte à longue portée par partition binaire

Zihao Ye Qipeng Guo Quan Gan Xipeng Qiu Zheng Zhang

Résumé

Le modèle Transformer est largement couronné de succès sur de nombreuses tâches de traitement du langage naturel. Toutefois, la complexité quadratique de l’attention auto-attention limite son application sur des textes longs. Dans cet article, en adoptant un mécanisme d’attention fine-vers-grande sur des intervalles multi-échelles via une partition binaire (BP), nous proposons le modèle BP-Transformer (abréviation : BPT). Le BPT génère O(knlog(n/k))O(k\cdot n\log (n/k))O(knlog(n/k)) connexions, où kkk est un hyperparamètre permettant de contrôler la densité de l’attention. Le BPT offre un bon compromis entre complexité computationnelle et capacité du modèle. Une série d’expériences sur la classification de textes, la traduction automatique et le modèle de langage montre que le BPT surpasser les modèles d’attention auto-attention précédents dans le traitement des textes longs. Notre code, les hyperparamètres ainsi que les noyaux CUDA pour l’attention creuse sont disponibles dans PyTorch.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BP-Transformer : Modélisation du contexte à longue portée par partition binaire | Articles | HyperAI