BIMBA : Compression par balayage sélectif pour la réponse à des questions vidéo à longue portée

La question-réponse vidéo (VQA) dans les vidéos longues soulève un défi majeur : extraire efficacement les informations pertinentes et modéliser les dépendances à longue portée à partir d’un grand nombre de trames redondantes. Le mécanisme d’attention auto-attentionnelle offre une solution générale pour la modélisation de séquences, mais son coût computationnel devient prohibitif lorsqu’il est appliqué à un volume massif de jetons spatio-temporels présents dans les vidéos longues. La plupart des méthodes antérieures reposent sur des stratégies de compression afin de réduire ce coût, comme réduire la longueur d’entrée par échantillonnage de trames creuses ou compresser la séquence de sortie envoyée au modèle de langage massif (LLM) via un pooling spatio-temporel. Toutefois, ces approches naïves sur-représentent souvent les informations redondantes et risquent de manquer des événements saillants ou des motifs spatio-temporels rapides. Dans ce travail, nous introduisons BIMBA, un modèle d’état efficace conçu pour traiter les vidéos longues. Notre modèle exploite l’algorithme de balayage sélectif afin d’apprendre à sélectionner efficacement les informations critiques à partir de vidéos à haute dimension, puis à les transformer en une séquence de jetons réduite, propice au traitement par un LLM. Des expériences étendues montrent que BIMBA atteint des performances de pointe sur plusieurs benchmarks de VQA pour vidéos longues, notamment PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench et Video-MME. Le code et les modèles sont disponibles publiquement à l’adresse suivante : https://sites.google.com/view/bimba-mllm.