Adaptation à double voie des Transformers d'images à vidéos

Dans cet article, nous transférons efficacement la puissance de représentation supérieure des modèles fondamentaux d'images, tels que ViT et Swin, à la compréhension vidéo en utilisant seulement quelques paramètres entraînables. Les méthodes d'adaptation précédentes ont simultanément pris en compte la modélisation spatiale et temporelle avec un module apprenable unifié, mais elles n'ont pas pleinement exploité les capacités de représentation des transformateurs d'images. Nous soutenons que l'architecture à double voie (two-stream) populaire dans les modèles vidéo peut atténuer ce problème. Nous proposons une nouvelle adaptation DualPath séparée en deux voies : une voie spatiale et une voie temporelle, où un adaptateur de goulot d'étranglement léger est utilisé dans chaque bloc de transformateur. En particulier pour la modélisation dynamique temporelle, nous intégrons des images consécutives dans un ensemble de cadres en grille pour imiter précisément la capacité des transformateurs visuels à extrapoler les relations entre les jetons. De plus, nous menons une investigation approfondie des multiples baselines sous un angle unifié dans le domaine de la compréhension vidéo et les comparons avec DualPath. Les résultats expérimentaux sur quatre benchmarks de reconnaissance d'actions démontrent que les transformateurs d'images pré-entraînés avec DualPath peuvent être généralisés efficacement au-delà du domaine de données.