HyperAIHyperAI

Command Palette

Search for a command to run...

Big Bird : Transformers pour des séquences plus longues

Résumé

Les modèles fondés sur les Transformers, tels que BERT, se sont imposés comme l'une des approches les plus performantes en apprentissage profond pour le traitement du langage naturel (NLP). Malheureusement, l'une de leurs limitations fondamentales réside dans la dépendance quadratique (notamment en mémoire) par rapport à la longueur de la séquence, due à leur mécanisme d'attention complète. Pour remédier à ce problème, nous proposons BigBird, un mécanisme d'attention creuse qui réduit cette dépendance quadratique à une dépendance linéaire. Nous démontrons que BigBird est un approximateur universel des fonctions de séquence et qu’il est Turing-complet, pré servant ainsi les propriétés essentielles du modèle d'attention complète quadratique. Par ailleurs, notre analyse théorique met en évidence certains avantages liés à l’existence de tokens globaux en nombre constant (O(1)), tels que le token CLS, qui s’attachent à l’ensemble de la séquence dans le cadre du mécanisme d’attention creuse. Le mécanisme d’attention proposé permet de traiter des séquences dont la longueur peut atteindre jusqu’à 8 fois celle qui était précédemment possible avec des ressources matérielles similaires. En conséquence de cette capacité à gérer des contextes bien plus longs, BigBird améliore de manière significative les performances sur diverses tâches du NLP, telles que la réponse aux questions et la synthèse de textes. Nous proposons également de nouvelles applications à des données génomiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp