ViLA : Alignement vidéo-langage efficace pour la réponse aux questions sur les vidéos

Dans ce travail, nous proposons un réseau efficace d’alignement vidéo-langage (ViLA). Notre modèle ViLA aborde de manière unifiée l’échantillonnage efficace des trames et l’alignement cross-modale efficace. Dans notre architecture ViLA, nous avons conçu un nouveau module d’encadrement de trames guidé par le texte, apprenable (Frame-Prompter), ainsi qu’un nouveau module de distillation cross-modale (QFormer-Distiller). Les grands modèles préentraînés image-langage ont montré des résultats prometteurs sur des tâches telles que la réponse à des questions visuelles (VQA). Toutefois, le problème de l’échantillonnage efficace et efficace des trames vidéo lors de l’adaptation de ces modèles préentraînés à l’alignement vidéo-langage reste un défi majeur. Contrairement aux travaux antérieurs, notre modèle ViLA démontre sa capacité à sélectionner les trames clés contenant des informations critiques, améliorant ainsi la précision de l’alignement vidéo-langage tout en réduisant la latence d’inférence (+3,3 % sur NExT-QA Temporal avec un accélération de 3,0×). Globalement, notre réseau ViLA surpasser les méthodes de l’état de l’art sur les benchmarks de question-réponse vidéo : +4,6 % sur STAR Interaction, +2,2 % sur la moyenne STAR avec une accélération de 3,0× ; notre modèle utilisant seulement 2 trames surpasse SeViLA avec 4 trames sur le jeu de données VLEP, avec une accélération de 4,2×. Le code source sera disponible à l’adresse suivante : https://github.com/xijun-cs/ViLA.