L'Attention est-elle meilleure que la Décomposition en Matrices ?

En tant qu’élément fondamental de l’apprentissage profond moderne, le mécanisme d’attention, et plus particulièrement l’attention auto-attention, joue un rôle essentiel dans la découverte des corrélations globales. Toutefois, l’attention conçue manuellement est-elle indispensable pour modéliser le contexte global ? Notre découverte surprenante est que l’attention auto-attention ne surpasse pas, en termes de performance et de coût computationnel, le modèle de décomposition matricielle (MD), développé il y a 20 ans, pour encoder les dépendances à longue distance. Nous formulons le problème du contexte global comme un problème de récupération de rang faible, et montrons que les algorithmes d’optimisation associés peuvent être exploités pour concevoir des blocs d’information globale. Ce papier propose alors une série de « Hamburgers », dans lesquels nous utilisons des algorithmes d’optimisation pour résoudre des décompositions matricielles, afin de factoriser les représentations d’entrée en sous-matrices et de reconstruire une représentation à faible rang. Les Hamburgers basés sur différentes décompositions matricielles peuvent rivaliser avantageusement avec le module populaire d’attention auto-attention pour le contexte global, à condition de traiter soigneusement les gradients rétropropagés à travers les décompositions matricielles. Des expériences approfondies ont été menées sur des tâches visuelles où l’apprentissage du contexte global est crucial, notamment la segmentation sémantique et la génération d’images, démontrant des améliorations significatives par rapport à l’attention auto-attention et ses variantes.