il y a 16 jours

Big Bird : Transformers pour des séquences plus longues

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed

Voir les détails de l'article

Big Bird : Transformers pour des séquences plus longues

Résumé

Les modèles fondés sur les Transformers, tels que BERT, se sont imposés comme l'une des approches les plus performantes en apprentissage profond pour le traitement du langage naturel (NLP). Malheureusement, l'une de leurs limitations fondamentales réside dans la dépendance quadratique (notamment en mémoire) par rapport à la longueur de la séquence, due à leur mécanisme d'attention complète. Pour remédier à ce problème, nous proposons BigBird, un mécanisme d'attention creuse qui réduit cette dépendance quadratique à une dépendance linéaire. Nous démontrons que BigBird est un approximateur universel des fonctions de séquence et qu’il est Turing-complet, pré servant ainsi les propriétés essentielles du modèle d'attention complète quadratique. Par ailleurs, notre analyse théorique met en évidence certains avantages liés à l’existence de tokens globaux en nombre constant (O(1)), tels que le token CLS, qui s’attachent à l’ensemble de la séquence dans le cadre du mécanisme d’attention creuse. Le mécanisme d’attention proposé permet de traiter des séquences dont la longueur peut atteindre jusqu’à 8 fois celle qui était précédemment possible avec des ressources matérielles similaires. En conséquence de cette capacité à gérer des contextes bien plus longs, BigBird améliore de manière significative les performances sur diverses tâches du NLP, telles que la réponse aux questions et la synthèse de textes. Nous proposons également de nouvelles applications à des données génomiques.