Attention inter-images autonome dans les modèles vidéo

Le mouvement, en tant qu'élément distinctif d'une vidéo, joue un rôle fondamental dans le développement des modèles de compréhension vidéo. Les modèles modernes basés sur l'apprentissage profond exploitent le mouvement en effectuant des convolutions 3D spatio-temporelles, en factorisant ces convolutions 3D en convolutions spatiales et temporelles séparées, ou encore en calculant l'attention auto-associative le long de la dimension temporelle. Derrière ces succès se cache une hypothèse implicite : les cartes de caractéristiques entre cadres consécutifs peuvent être efficacement agrégées. Toutefois, cette hypothèse ne tient pas toujours, en particulier dans les régions subissant de grandes déformations. Dans cet article, nous proposons une nouvelle architecture d'attention inter-cadres, nommée Attention Inter-Cadres Autonome (SIFA), qui explore de manière innovante les déformations entre cadres afin d'estimer une attention auto-locale pour chaque position spatiale. Techniquement, SIFA réinvente le concept de déformabilité en re-échelonnant les prédictions de décalage à l'aide de la différence entre deux cadres successifs. En prenant chaque position spatiale du cadre courant comme requête, les voisins déformables locaux du cadre suivant sont considérés comme clés/valeurs. Ensuite, SIFA mesure la similarité entre la requête et les clés afin de produire une attention autonome, qui pondère les valeurs pour une agrégation temporelle. Nous intégrons ensuite ce bloc SIFA dans des ConvNets et dans un Vision Transformer, respectivement, pour concevoir SIFA-Net et SIFA-Transformer. Des expérimentations étendues sur quatre jeux de données vidéo démontrent l'efficacité supérieure de SIFA-Net et SIFA-Transformer en tant que bases plus puissantes. Plus remarquablement, SIFA-Transformer atteint une précision de 83,1 % sur le jeu de données Kinetics-400. Le code source est disponible à l'adresse suivante : \url{https://github.com/FuchenUSTC/SIFA}.