Modèles adaptatifs temporellement pour une compréhension vidéo efficace

Les convolutions spatiales sont largement utilisées dans de nombreux modèles profonds pour la vidéo. Elles reposent fondamentalement sur l’hypothèse d’invariance spatio-temporelle, c’est-à-dire l’utilisation de poids partagés pour chaque localisation dans des cadres différents. Ce travail présente les Convolution Temporellement Adaptatives (TAdaConv) pour la compréhension vidéo, montrant que la calibration adaptative des poids le long de la dimension temporelle constitue un moyen efficace de modéliser des dynamiques temporelles complexes dans les vidéos. Plus précisément, TAdaConv confère aux convolutions spatiales des capacités de modélisation temporelle en ajustant les poids de convolution pour chaque trame en fonction de son contexte temporel local et global. Par rapport aux opérations existantes pour la modélisation temporelle, TAdaConv est plus efficace car elle agit directement sur les noyaux de convolution plutôt que sur les caractéristiques, dont la dimension est d’un ordre de grandeur plus petite que les résolutions spatiales. En outre, la calibration des noyaux augmente la capacité du modèle. En s’appuyant sur cette opération facilement intégrable, TAdaConv, ainsi que son extension TAdaConvV2, nous avons conçu des blocs TAdaBlocks afin d’offrir à ConvNeXt et aux Vision Transformers une forte capacité de modélisation temporelle. Les résultats expérimentaux montrent que TAdaConvNeXtV2 et TAdaFormer rivalisent avec les meilleurs modèles basés sur des convolutions ou des Transformers sur diverses benchmarks de compréhension vidéo. Nos codes et modèles sont disponibles à l’adresse suivante : https://github.com/alibaba-mmai-research/TAdaConv.