Transformateur de Fourier : Modélisation rapide à longue portée en éliminant la redondance séquentielle à l’aide de l’opérateur FFT

Le modèle Transformer est connu pour être particulièrement exigeant en termes de ressources computationnelles, et son coût devient prohibitif pour des séquences longues, en raison de la complexité quadratique en temps et en espace du module d’attention auto-attention par rapport à la longueur de la séquence. De nombreux chercheurs se sont attelés à concevoir de nouvelles variantes d’attention auto-attention ou à introduire de nouveaux paramètres afin de surmonter cette limitation, mais une grande partie de ces approches empêche le modèle d’hériter des poids de grands modèles préentraînés. Dans ce travail, l’inefficacité du Transformer est abordée sous un angle différent. Nous proposons le Fourier Transformer, une approche simple mais efficace, qui réduit progressivement les redondances présentes dans la séquence cachée en s’appuyant sur l’opérateur prêt à l’emploi de la transformation de Fourier rapide (FFT) pour réaliser une transformation cosinus discrète (DCT). Le Fourier Transformer permet de réduire de manière significative les coûts computationnels tout en conservant la capacité à hériter des poids de divers grands modèles préentraînés. Les expérimentations montrent que notre modèle atteint des performances de pointe parmi tous les modèles basés sur le Transformer sur le benchmark LRA dédié au traitement de séquences longues, avec une amélioration notable en vitesse et en consommation mémoire. Pour les tâches de génération séquence à séquence, telles que CNN/DailyMail et ELI5, en héritant des poids du modèle BART, notre approche surpasse à la fois le BART standard et d’autres modèles efficaces. Le code source est disponible publiquement à l’adresse suivante : https://github.com/LUMIA-Group/FourierTransformer