HyperAIHyperAI

Command Palette

Search for a command to run...

Trop de Trames, Pas Toutes Utiles : Stratégies Efficaces pour la QA de Vidéos Longues

Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryu Donghyun Kim Michael S. Ryoo

Résumé

Les vidéos de longue durée, qui s'étendent sur de larges intervalles temporels, sont hautement redondantes en termes d'information et contiennent de nombreux événements ou entités distincts qui sont souvent faiblement liés. Par conséquent, lorsqu'on effectue des réponses à des questions sur des vidéos de longue durée (LVQA), toutes les informations nécessaires pour générer une réponse correcte peuvent souvent être contenues dans un petit sous-ensemble de trames. Les travaux récents explorent l'utilisation de grands modèles linguistiques (LLMs) dans les benchmarks LVQA, obtenant des performances exceptionnelles tout en s'appuyant sur des modèles visuels-linguistiques (VLMs) pour convertir tout le contenu visuel des vidéos en langage naturel. Ces VLMs captionnent souvent indépendamment un grand nombre de trames prélevées uniformément à partir de vidéos longues, ce qui n'est pas efficace et peut être largement redondant. En remettant en question ces choix décisionnels, nous explorons des stratégies optimales pour la sélection de trames clés capables de réduire considérablement ces redondances, notamment le Sélecteur Hiérarchique de Trames Clés. Notre cadre proposé, LVNet, atteint des performances d'état de l'art à une échelle comparable de légendes sur trois jeux de données benchmark LVQA : EgoSchema, NExT-QA et IntentQA, tout en démontrant également d'excellentes performances sur des vidéos d'une heure ou plus dans VideoMME. Notre code sera rendu public. Le code peut être trouvé à l'adresse suivante : https://github.com/jongwoopark7978/LVNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Trop de Trames, Pas Toutes Utiles : Stratégies Efficaces pour la QA de Vidéos Longues | Articles | HyperAI