HyperAIHyperAI

Command Palette

Search for a command to run...

CoLT5 : Transformateurs à longue portée plus rapides grâce au calcul conditionnel

Résumé

De nombreuses tâches de traitement du langage naturel bénéficient d'entrées longues, mais le traitement de documents longs avec les modèles Transformer s'avère coûteux — non seulement en raison de la complexité quadratique de l'attention, mais aussi du fait d'appliquer les couches feedforward et de projection à chaque jeton. Toutefois, tous les jetons ne sont pas également importants, en particulier dans le cas de documents longs. Nous proposons CoLT5, un modèle Transformer conçu pour des entrées longues, qui s'appuie sur cette intuition en utilisant un calcul conditionnel, en allouant davantage de ressources aux jetons les plus importants, tant dans les couches feedforward qu'attentionnelles. Nous démontrons que CoLT5 atteint des performances supérieures à celles de LongT5, avec un entraînement et une inférence bien plus rapides, et réalise un état de l'art sur le benchmark SCROLLS à entrées longues. En outre, CoLT5 peut exploiter efficacement et de manière tractable des entrées extrêmement longues, en montrant des gains significatifs jusqu'à une longueur d'entrée de 64 000.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CoLT5 : Transformateurs à longue portée plus rapides grâce au calcul conditionnel | Articles | HyperAI