HyperAIHyperAI
il y a 3 mois

Au-delà de l’attention auto-attention : une attention externe utilisant deux couches linéaires pour des tâches visuelles

Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, Shi-Min Hu
Au-delà de l’attention auto-attention : une attention externe utilisant deux couches linéaires pour des tâches visuelles
Résumé

Les mécanismes d’attention, et notamment l’attention self-attention, jouent un rôle de plus en plus important dans la représentation profonde des caractéristiques pour les tâches visuelles. L’attention self-attention met à jour les caractéristiques à chaque position en calculant une somme pondérée des caractéristiques à l’aide d’affinités appariées entre toutes les positions, afin de capturer les dépendances à longue portée au sein d’un même échantillon. Toutefois, l’attention self-attention présente une complexité quadratique et ignore les corrélations potentielles entre différents échantillons. Ce papier propose un nouveau mécanisme d’attention, que nous appelons attention externe, fondé sur deux mémoires externes, petites, apprenables et partagées ; ce mécanisme peut être facilement implémenté à l’aide de deux couches linéaires en cascade et de deux couches de normalisation, et remplace aisément l’attention self-attention dans les architectures populaires existantes. L’attention externe présente une complexité linéaire et considère implicitement les corrélations entre tous les échantillons de données. Nous intégrons par ailleurs le mécanisme multi-tête à l’attention externe afin de proposer une architecture entièrement basée sur des perceptrons multicouches, nommée EAMLP (External Attention MLP), dédiée à la classification d’images. Des expériences étendues sur la classification d’images, la détection d’objets, la segmentation sémantique, la segmentation d’instances, la génération d’images et l’analyse de nuages de points montrent que notre méthode obtient des résultats comparables ou supérieurs à ceux de l’attention self-attention et de certaines de ses variantes, tout en nécessitant des coûts computationnels et mémoire bien plus faibles.