MIST : Transformateur itératif spatial-temporel multimodal pour la réponse à des questions sur des vidéos longues

Pour concevoir des systèmes de réponse aux questions vidéo (VideoQA) capables d’aider les humains dans leurs activités quotidiennes, il est essentiel de pouvoir extraire des réponses à partir de vidéos longues présentant des événements diversifiés et complexes. Les modèles existants de VQA multimodaux atteignent des performances prometteuses sur des images ou des extraits vidéo courts, notamment grâce aux récents progrès des pré-entraînements multimodaux à grande échelle. Toutefois, lorsqu’on étend ces approches aux vidéos longues, de nouveaux défis émergent. D’une part, une stratégie d’échantillonnage dense des vidéos s’avère prohibitivement coûteuse en termes de calcul. D’autre part, les méthodes fondées sur un échantillonnage sparse peinent à faire face à des scénarios exigeant un raisonnement visuel multigranulaire et multi-événement. Dans ce travail, nous proposons un nouveau modèle nommé Multi-modal Iterative Spatial-temporal Transformer (MIST), conçu pour mieux adapter les modèles pré-entraînés à la tâche de VideoQA sur vidéos longues. Plus précisément, MIST décompose l’attention spatio-temporelle auto-supervisée traditionnelle en modules itératifs de sélection de segments et de régions, qui choisissent de manière adaptative les cadres et les régions d’image les plus pertinentes par rapport à la question posée. Les concepts visuels à différentes granularités sont ensuite traités de manière efficace grâce à un module d’attention. En outre, MIST effectue de manière itérative des étapes de sélection et d’attention sur plusieurs couches, permettant ainsi un raisonnement sur plusieurs événements successifs. Les résultats expérimentaux sur quatre jeux de données de VideoQA — AGQA, NExT-QA, STAR et Env-QA — démontrent que MIST atteint des performances de pointe et se distingue par une efficacité computationnelle supérieure ainsi qu’une meilleure interprétabilité.