SViTT : Apprentissage temporel de transformateurs vidéo-texte creux

Les transformateurs vidéo-texte apprennent-ils à modéliser les relations temporelles entre les images ? Malgré leur immense capacité et l'abondance de données d'entraînement multimodales, des travaux récents ont révélé une forte tendance des modèles vidéo-texte vers des représentations spatiales basées sur les images, tandis que le raisonnement temporel reste largement en suspens. Dans cette étude, nous identifions plusieurs défis clés dans l'apprentissage temporel des transformateurs vidéo-texte : le compromis espace-temps résultant de la taille limitée du réseau ; la malédiction de la dimensionalité pour la modélisation multi-images ; et les rendements décroissants de l'information sémantique par l'allongement de la durée des clips. Guidés par ces constats, nous proposons SViTT, une architecture vidéo-texte éparse qui effectue un raisonnement multi-images avec un coût significativement plus faible que celui des transformateurs naïfs à l'attention dense. De manière similaire aux réseaux basés sur les graphes, SViTT utilise deux formes de parcimonie : la parcimonie des arêtes qui limite les communications requête-clé entre les jetons dans l'auto-attention, et la parcimonie des nœuds qui élimine les jetons visuels non informatifs. Entraîné avec un programme d'apprentissage qui augmente la parcimonie du modèle en fonction de la durée des clips, SViTT surpasse les lignes de base des transformateurs denses sur plusieurs benchmarks de recherche vidéo-texte et de réponse aux questions, avec une fraction du coût computationnel. Page du projet : http://svcl.ucsd.edu/projects/svitt.