TESTA : Agrégation temporelle-spatiale des jetons pour la compréhension vidéo-linguistique de longue forme

Les pré-entraînements à grande échelle de modèles vidéo-langue ont réalisé des progrès remarquables dans l'avancement des tâches de compréhension vidéo-langue. Cependant, la charge de calcul importante liée à l'encodage vidéo reste une bouteille d'étranglement majeure en termes d'efficacité, particulièrement pour les vidéos longues. Ces vidéos contiennent un grand nombre de jetons visuels en raison de leurs propriétés 3D inhérentes et de leur redondance spatio-temporelle, ce qui rend difficile la capture de relations temporelles et spatiales complexes. Pour résoudre ce problème, nous proposons une méthode efficace appelée Agrégation Temporelle-Espatiale de Jetons (TEmporal-Spatial Token Aggregation, TESTA). TESTA condense les sémantiques vidéo en agrégeant de manière adaptative des images similaires ainsi que des patchs similaires au sein de chaque image. TESTA peut réduire le nombre de jetons visuels de 75 %, accélérant ainsi l'encodage vidéo. En s'appuyant sur TESTA, nous présentons un modèle vidéo-langue pré-entraîné équipé d'un module d'agrégation spatio-temporelle divisé dans chaque bloc d'encodeur vidéo. Nous évaluons notre modèle sur cinq jeux de données pour les tâches de recherche paragraphe-vidéo et VideoQA longues formes. Les résultats expérimentaux montrent que TESTA améliore l'efficacité du calcul par 1,7 fois et réalise des gains significatifs en termes de performance grâce à sa capacité à traiter des séquences plus longues, par exemple +13,7 R@1 sur QuerYD et +6,5 R@1 sur Condensed Movie.