X-volution : Vers une unification de la convolution et de l'attention auto-associative

La convolution et l’attention auto-associative agissent comme deux blocs fondamentaux dans les réseaux neuronaux profonds : la première extrait des caractéristiques locales d’une image de manière linéaire, tandis que la seconde encode de manière non locale des relations contextuelles d’ordre supérieur. Bien qu’essentiellement complémentaires entre elles — respectivement pour les caractéristiques d’ordre un et d’ordre supérieur — les architectures d’avant-garde, que ce soient les CNNs ou les Transformers, manquent d’une approche rigoureuse permettant d’appliquer simultanément ces deux opérations au sein d’un même module computationnel, en raison de leurs schémas de calcul hétérogènes et du fardeau excessif des produits scalaires globaux dans les tâches visuelles. Dans ce travail, nous dérivons théoriquement un schéma d’approximation de l’attention auto-associative globale, qui approche l’attention auto-associative via une opération de convolution appliquée à des caractéristiques transformées. À partir de ce schéma d’approximation, nous concevons un module élémentaire à plusieurs branches combinant à la fois convolution et attention auto-associative, capable d’unifier les interactions locales et non locales sur les caractéristiques. De manière cruciale, une fois entraîné, ce module à plusieurs branches peut être converti de manière conditionnelle en une simple opération de convolution standard grâce à une réparamétrisation structurelle, donnant naissance à un opérateur purement convolutif appelé X-volution, prêt à être intégré comme une opération atomique dans n’importe quel réseau moderne. Des expériences étendues démontrent que la X-volution proposée permet d’obtenir des améliorations très compétitives en compréhension visuelle (+1,2 % de précision top-1 sur la classification ImageNet, +1,7 % d’AP boîte et +1,5 % d’AP masque sur la détection et la segmentation COCO).