HyperAIHyperAI
il y a 10 jours

Concentrez votre attention (avec des filtres IIR adaptatifs)

Shahar Lutati, Itamar Zimerman, Lior Wolf
Concentrez votre attention (avec des filtres IIR adaptatifs)
Résumé

Nous présentons une nouvelle couche dans laquelle des filtres à réponse impulsionnelle infinie (IIR) dynamiques (c’est-à-dire dépendants de l’entrée) d’ordre deux sont utilisés pour traiter la séquence d’entrée avant l’application de l’attention conventionnelle. L’entrée est divisée en tronçons, et les coefficients de ces filtres sont déterminés à partir des tronçons précédents afin de préserver la causalité. Malgré leur ordre relativement faible, ces filtres adaptatifs causaux se révèlent capables de focaliser l’attention sur les éléments pertinents de la séquence. La nouvelle couche s’appuie sur la théorie du contrôle et se généralise aux couches à espace d’état diagonales. Elle atteint des performances comparables à celles des réseaux de pointe, tout en utilisant une fraction de leurs paramètres et en présentant une complexité temporelle sous-quadratique par rapport à la taille de l’entrée. Cette couche s’avère supérieure à des architectures telles que Heyna, GPT2 et Mega, tant en nombre de paramètres qu’en performance sur plusieurs problèmes de séquences à longue portée.

Concentrez votre attention (avec des filtres IIR adaptatifs) | Articles de recherche récents | HyperAI