Modélisation de l'attention spatiotemporelle avec décalage de patch temporel pour la reconnaissance d'actions

Les méthodes basées sur les transformateurs ont récemment connu des progrès considérables dans les tâches de vision à base d’images 2D. Toutefois, pour les tâches basées sur les vidéos 3D telles que la reconnaissance d’actions, l’application directe des transformateurs spatio-temporels aux données vidéo entraîne des charges computationnelles et mémoire importantes, en raison de la forte augmentation du nombre de patches et de la complexité quadratique du calcul d’attention auto-spatiale. Comment modéliser efficacement et efficacement l’attention 3D dans les vidéos reste un défi majeur pour les transformateurs. Dans cet article, nous proposons une méthode appelée Temporal Patch Shift (TPS) pour une modélisation efficace de l’attention 3D dans les transformateurs appliqués à la reconnaissance d’actions à partir de vidéos. La TPS déplace une partie des patches selon un motif de mosaïque spécifique dans la dimension temporelle, transformant ainsi une opération d’attention spatiale classique en une attention spatio-temporelle avec un coût supplémentaire négligeable. En conséquence, nous pouvons calculer l’attention 3D avec un coût computationnel et mémoire pratiquement identique à celui de l’attention 2D. La TPS est un module plug-and-play pouvant être intégré facilement dans les modèles existants de transformateurs 2D afin d’améliorer l’apprentissage des caractéristiques spatio-temporelles. La méthode proposée atteint des performances compétitives par rapport aux états de l’art sur les jeux de données Something-something V1 & V2, Diving-48 et Kinetics400, tout en étant nettement plus efficace en termes de coût computationnel et mémoire. Le code source de la TPS est disponible à l’adresse suivante : https://github.com/MartinXM/TPS.