Attention relationnelle auto-: qu'est-ce qui manque dans l'attention pour la compréhension vidéo

La convolution a sans doute constitué la transformation de caractéristiques la plus importante pour les réseaux neuronaux modernes, contribuant ainsi au progrès de l’apprentissage profond. La récente émergence des réseaux Transformer, qui remplacent les couches de convolution par des blocs d’attention auto-associative, a mis en évidence les limites des noyaux de convolution stationnaires et ouvert la voie à une nouvelle ère des transformations dynamiques de caractéristiques. Toutefois, les transformations dynamiques existantes, y compris l’attention auto-associative, restent limitées dans le domaine de la compréhension vidéo, où les relations de correspondance dans l’espace et le temps — c’est-à-dire les informations de mouvement — sont essentielles à une représentation efficace. Dans ce travail, nous introduisons une transformation de caractéristiques relationnelle, appelée attention auto-associative relationnelle (RSA), qui exploite la richesse des structures relationnelles spatio-temporelles présentes dans les vidéos en générant dynamiquement des noyaux relationnels et en agrégant des contextes relationnels. Nos expérimentations et études d’ablation montrent que le réseau RSA surpasse significativement ses homologues basés sur la convolution et l’attention auto-associative, atteignant l’état de l’art sur les benchmarks standards centrés sur le mouvement pour la reconnaissance d’actions vidéo, tels que Something-Something-V1 & V2, Diving48 et FineGym.