HyperAIHyperAI

Command Palette

Search for a command to run...

Descriptions visuelles pilotées par des questions pour la réponse aux questions vidéo zéro-shot

David Romero Thamar Solorio

Résumé

Nous présentons Q-ViD, une approche simple pour la question-réponse sur vidéos (video QA), qui, contrairement aux méthodes précédentes basées sur des architectures complexes, des pipelines coûteux en ressources computationnelles ou l’utilisation de modèles fermés comme les GPT, repose sur un seul modèle ouvert vision-langage orienté instruction (InstructBLIP) pour aborder la tâche de video QA à partir de descriptions d’images. Plus précisément, nous concevons des instructions de génération de légendes (captioning instruction prompts) fondées sur les questions cibles relatives aux vidéos, et exploitons InstructBLIP pour obtenir des légendes des cadres vidéo pertinentes pour la tâche en cours. Ensuite, nous construisons une description globale de la vidéo à partir des légendes de cadres dépendantes de la question, puis transmettons ces informations, accompagnées d’un prompt de réponse à une question, à un grand modèle de langage (LLM). Ce dernier agit comme module de raisonnement et effectue la dernière étape de la question à choix multiples. Notre cadre Q-ViD, simple mais efficace, atteint des performances compétitives, voire supérieures, aux modèles les plus avancés actuels sur une variété de benchmarks de video QA, notamment NExT-QA, STAR, How2QA, TVQA et IntentQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp