Modèle d'Image-Langue Auto-Chainé pour la Localisation Vidéo et le Question-Réponse

Des études récentes ont montré des résultats prometteurs dans l'utilisation de grands modèles pré-entraînés d'image-langue pour la réponse à des questions sur des vidéos. Bien que ces modèles d'image-langue puissent efficacement initier l'apprentissage de représentation des modèles vidéo-langue, ils concatènent généralement des images de vidéo échantillonnées uniformément en tant qu'entrées visuelles sans modélisation temporelle explicite et sensible au langage. Lorsqu'une seule partie de la vidéo est pertinente pour la requête linguistique, un tel échantillonnage uniforme peut souvent entraîner la perte d'indices visuels importants. Bien que les humains se concentrent souvent sur un moment spécifique d'une vidéo et le rembobinent pour répondre aux questions, former un localiseur de moments vidéo sensible aux requêtes nécessite généralement des annotations coûteuses et un coût computationnel élevé. Pour résoudre ce problème, nous proposons Self-Chained Video Localization-Answering (SeViLA), une nouvelle approche qui utilise un seul modèle d'image-langue (BLIP-2) pour aborder à la fois la localisation de keyframes temporelles et les tâches de Q&R (Question-Réponse) sur les vidéos. Le cadre SeViLA comprend deux modules : Localizer et Answerer, tous deux finement ajustés avec une efficacité paramétrique à partir de BLIP-2. Nous proposons deux méthodes pour chaîner ces modules afin d'effectuer une inférence en cascade et une auto-révision. Premièrement, dans la chaîne avant, le Localizer identifie plusieurs keyframes sensibles au langage dans une vidéo, que l'Answerer utilise ensuite pour prédire la réponse. Deuxièmement, dans la chaîne arrière, l'Answerer génère des pseudo-étiquettes de keyframes pour affiner le Localizer, atténuant ainsi le besoin d'annotations coûteuses pour la localisation de moments vidéo. Notre cadre SeViLA surpassse plusieurs baselines solides sur 5 benchmarks difficiles de Q&R et de prédiction d'événements en vidéo, atteignant l'état de l'art tant dans les configurations d'apprentissage supervisé (NExT-QA, STAR) que non supervisé (NExT-QA, STAR, How2QA, VLEP). Nous analysons également l'impact du Localizer, ses comparaisons avec d'autres modèles de localisation temporelle, son apprentissage préalable/auto-révision et la variation du nombre de keyframes.