HyperAIHyperAI
il y a 9 jours

BP-Transformer : Modélisation du contexte à longue portée par partition binaire

Zihao Ye, Qipeng Guo, Quan Gan, Xipeng Qiu, Zheng Zhang
BP-Transformer : Modélisation du contexte à longue portée par partition binaire
Résumé

Le modèle Transformer est largement couronné de succès sur de nombreuses tâches de traitement du langage naturel. Toutefois, la complexité quadratique de l’attention auto-attention limite son application sur des textes longs. Dans cet article, en adoptant un mécanisme d’attention fine-vers-grande sur des intervalles multi-échelles via une partition binaire (BP), nous proposons le modèle BP-Transformer (abréviation : BPT). Le BPT génère $O(k\cdot n\log (n/k))$ connexions, où $k$ est un hyperparamètre permettant de contrôler la densité de l’attention. Le BPT offre un bon compromis entre complexité computationnelle et capacité du modèle. Une série d’expériences sur la classification de textes, la traduction automatique et le modèle de langage montre que le BPT surpasser les modèles d’attention auto-attention précédents dans le traitement des textes longs. Notre code, les hyperparamètres ainsi que les noyaux CUDA pour l’attention creuse sont disponibles dans PyTorch.