CoLT5 : Transformateurs à longue portée plus rapides grâce au calcul conditionnel

De nombreuses tâches de traitement du langage naturel bénéficient d'entrées longues, mais le traitement de documents longs avec les modèles Transformer s'avère coûteux — non seulement en raison de la complexité quadratique de l'attention, mais aussi du fait d'appliquer les couches feedforward et de projection à chaque jeton. Toutefois, tous les jetons ne sont pas également importants, en particulier dans le cas de documents longs. Nous proposons CoLT5, un modèle Transformer conçu pour des entrées longues, qui s'appuie sur cette intuition en utilisant un calcul conditionnel, en allouant davantage de ressources aux jetons les plus importants, tant dans les couches feedforward qu'attentionnelles. Nous démontrons que CoLT5 atteint des performances supérieures à celles de LongT5, avec un entraînement et une inférence bien plus rapides, et réalise un état de l'art sur le benchmark SCROLLS à entrées longues. En outre, CoLT5 peut exploiter efficacement et de manière tractable des entrées extrêmement longues, en montrant des gains significatifs jusqu'à une longueur d'entrée de 64 000.