il y a 2 mois

Un Cadre Simple de MLL pour la Réponse à des Questions sur des Vidéos à Longue Portée

Ce Zhang; Taixi Lu; Md Mohaiminul Islam; Ziyang Wang; Shoubin Yu; Mohit Bansal; Gedas Bertasius

Résumé

Nous présentons LLoVi, un cadre basé sur le langage pour la réponse à des questions sur des vidéos de longue durée (LVQA). Contrairement aux méthodes précédentes d'analyse de vidéos de longue durée, qui sont souvent coûteuses et nécessitent une conception spécialisée de modèles pour les vidéos de longue durée (par exemple, files d'attente mémoire, couches d'espace d'état, etc.), notre approche utilise un légendeur visuel au niveau des images/coupures (par exemple, BLIP2, LaViLa, LLaVA) couplé avec un grand modèle linguistique (GPT-3.5, GPT-4), ce qui donne lieu à un cadre LVQA simple mais étonnamment efficace. Plus précisément, nous décomposons les aspects de modélisation à court et long terme du LVQA en deux étapes. Premièrement, nous utilisons un légendeur visuel à court terme pour générer des descriptions textuelles de courts extraits vidéo (de 0,5 à 8 secondes) prélevés de manière dense dans une vidéo d'entrée de longue durée. Ensuite, un grand modèle linguistique agrège ces légendes à court terme extraites de manière dense pour effectuer la raisonnement temporelle à long terme nécessaire à la compréhension globale de la vidéo et à la réponse à une question.Pour analyser ce qui rend notre cadre simple si efficace, nous évaluons soigneusement divers composants de notre système. Notre analyse empirique révèle que le choix du légendeur visuel et du grand modèle linguistique est crucial pour obtenir d'excellents résultats en LVQA. De plus, nous montrons qu'une invite spécialisée demandant au grand modèle linguistique de résumer d'abord les légendes visuelles bruyantes à court terme avant de répondre à une question donnée entraîne une amélioration significative des performances en LVQA. Sur EgoSchema, reconnu comme étant le benchmark le plus connu pour l'évaluation des systèmes de réponse à des questions sur des vidéos très longues, notre méthode atteint une précision de 50,3 %, surpassant l'approche précédemment la meilleure par 18,1 % (gain absolu). De plus, notre approche dépasse l'état actuel de l'art précédemment établi de 4,1 % et 3,1 % sur NeXT-QA et IntentQA respectivement. Nous avons également étendu LLoVi au LVQA ancré et démontré qu'il surpassait toutes les méthodes antérieures sur le jeu de données NeXT-GQA. Nous publierons notre code sur https://github.com/CeeZh/LLoVi.