BP-Transformer : Modélisation du contexte à longue portée par partition binaire

Le modèle Transformer est largement couronné de succès sur de nombreuses tâches de traitement du langage naturel. Toutefois, la complexité quadratique de l’attention auto-attention limite son application sur des textes longs. Dans cet article, en adoptant un mécanisme d’attention fine-vers-grande sur des intervalles multi-échelles via une partition binaire (BP), nous proposons le modèle BP-Transformer (abréviation : BPT). Le BPT génère $O(k\cdot n\log (n/k))$ connexions, où $k$ est un hyperparamètre permettant de contrôler la densité de l’attention. Le BPT offre un bon compromis entre complexité computationnelle et capacité du modèle. Une série d’expériences sur la classification de textes, la traduction automatique et le modèle de langage montre que le BPT surpasser les modèles d’attention auto-attention précédents dans le traitement des textes longs. Notre code, les hyperparamètres ainsi que les noyaux CUDA pour l’attention creuse sont disponibles dans PyTorch.