il y a 17 jours

Descriptions visuelles pilotées par des questions pour la réponse aux questions vidéo zéro-shot

David Romero, Thamar Solorio

Résumé

Nous présentons Q-ViD, une approche simple pour la question-réponse sur vidéos (video QA), qui, contrairement aux méthodes précédentes basées sur des architectures complexes, des pipelines coûteux en ressources computationnelles ou l’utilisation de modèles fermés comme les GPT, repose sur un seul modèle ouvert vision-langage orienté instruction (InstructBLIP) pour aborder la tâche de video QA à partir de descriptions d’images. Plus précisément, nous concevons des instructions de génération de légendes (captioning instruction prompts) fondées sur les questions cibles relatives aux vidéos, et exploitons InstructBLIP pour obtenir des légendes des cadres vidéo pertinentes pour la tâche en cours. Ensuite, nous construisons une description globale de la vidéo à partir des légendes de cadres dépendantes de la question, puis transmettons ces informations, accompagnées d’un prompt de réponse à une question, à un grand modèle de langage (LLM). Ce dernier agit comme module de raisonnement et effectue la dernière étape de la question à choix multiples. Notre cadre Q-ViD, simple mais efficace, atteint des performances compétitives, voire supérieures, aux modèles les plus avancés actuels sur une variété de benchmarks de video QA, notamment NExT-QA, STAR, How2QA, TVQA et IntentQA.