HyperAIHyperAI

Command Palette

Search for a command to run...

BIMBA : Compression par balayage sélectif pour la réponse à des questions vidéo à longue portée

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

Résumé

La question-réponse vidéo (VQA) dans les vidéos longues soulève un défi majeur : extraire efficacement les informations pertinentes et modéliser les dépendances à longue portée à partir d’un grand nombre de trames redondantes. Le mécanisme d’attention auto-attentionnelle offre une solution générale pour la modélisation de séquences, mais son coût computationnel devient prohibitif lorsqu’il est appliqué à un volume massif de jetons spatio-temporels présents dans les vidéos longues. La plupart des méthodes antérieures reposent sur des stratégies de compression afin de réduire ce coût, comme réduire la longueur d’entrée par échantillonnage de trames creuses ou compresser la séquence de sortie envoyée au modèle de langage massif (LLM) via un pooling spatio-temporel. Toutefois, ces approches naïves sur-représentent souvent les informations redondantes et risquent de manquer des événements saillants ou des motifs spatio-temporels rapides. Dans ce travail, nous introduisons BIMBA, un modèle d’état efficace conçu pour traiter les vidéos longues. Notre modèle exploite l’algorithme de balayage sélectif afin d’apprendre à sélectionner efficacement les informations critiques à partir de vidéos à haute dimension, puis à les transformer en une séquence de jetons réduite, propice au traitement par un LLM. Des expériences étendues montrent que BIMBA atteint des performances de pointe sur plusieurs benchmarks de VQA pour vidéos longues, notamment PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench et Video-MME. Le code et les modèles sont disponibles publiquement à l’adresse suivante : https://sites.google.com/view/bimba-mllm.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BIMBA : Compression par balayage sélectif pour la réponse à des questions vidéo à longue portée | Articles | HyperAI