il y a 2 mois

Trop de Trames, Pas Toutes Utiles : Stratégies Efficaces pour la QA de Vidéos Longues

Jongwoo Park; Kanchana Ranasinghe; Kumara Kahatapitiya; Wonjeong Ryu; Donghyun Kim; Michael S. Ryoo

Résumé

Les vidéos de longue durée, qui s'étendent sur de larges intervalles temporels, sont hautement redondantes en termes d'information et contiennent de nombreux événements ou entités distincts qui sont souvent faiblement liés. Par conséquent, lorsqu'on effectue des réponses à des questions sur des vidéos de longue durée (LVQA), toutes les informations nécessaires pour générer une réponse correcte peuvent souvent être contenues dans un petit sous-ensemble de trames. Les travaux récents explorent l'utilisation de grands modèles linguistiques (LLMs) dans les benchmarks LVQA, obtenant des performances exceptionnelles tout en s'appuyant sur des modèles visuels-linguistiques (VLMs) pour convertir tout le contenu visuel des vidéos en langage naturel. Ces VLMs captionnent souvent indépendamment un grand nombre de trames prélevées uniformément à partir de vidéos longues, ce qui n'est pas efficace et peut être largement redondant. En remettant en question ces choix décisionnels, nous explorons des stratégies optimales pour la sélection de trames clés capables de réduire considérablement ces redondances, notamment le Sélecteur Hiérarchique de Trames Clés. Notre cadre proposé, LVNet, atteint des performances d'état de l'art à une échelle comparable de légendes sur trois jeux de données benchmark LVQA : EgoSchema, NExT-QA et IntentQA, tout en démontrant également d'excellentes performances sur des vidéos d'une heure ou plus dans VideoMME. Notre code sera rendu public. Le code peut être trouvé à l'adresse suivante : https://github.com/jongwoopark7978/LVNet.