Video-RAG : Compréhension de vidéos longues augmentée par la recherche visuellement alignée

Les modèles existants de grande taille pour la vidéo et le langage (LVLMs) peinent à comprendre correctement les vidéos longues en raison d'un contexte limité. Pour résoudre ce problème, l'ajustement fin des LVLMs avec un contexte long et l'emploi d'agents basés sur GPT sont apparus comme des solutions prometteuses. Cependant, l'ajustement fin des LVLMs nécessiterait une quantité importante de données de haute qualité et des ressources GPU substantielles, tandis que les agents basés sur GPT dépendraient de modèles propriétaires (par exemple, GPT-4o).Dans cet article, nous proposons Video Retrieval-Augmented Generation (Video-RAG), un pipeline sans apprentissage et économique qui utilise des textes auxiliaires alignés visuellement pour faciliter l'alignement inter-modal tout en fournissant des informations supplémentaires au-delà du contenu visuel. Plus précisément, nous exploitons des outils externes open source pour extraire des informations alignées visuellement à partir de données vidéo pures (par exemple, audio, caractères optiques et détection d'objets), et intégrons ces informations sous forme de textes auxiliaires dans un LVLM existant, en association avec les images vidéo et les requêtes, de manière plug-and-play.Notre Video-RAG présente plusieurs avantages clés : (i) il est léger avec un faible coût en termes de calcul grâce à la récupération en un seul tour ; (ii) son implémentation est simple et il est compatible avec n'importe quel LVLM ; et (iii) il offre des gains de performance significatifs et cohérents sur diverses benchmarks d'analyse de vidéos longues, notamment Video-MME, MLVU et LongVideoBench. Il convient de noter que notre modèle montre une performance supérieure à celle des modèles propriétaires tels que Gemini-1.5-Pro et GPT-4o lorsqu'il est utilisé avec un modèle de 72 milliards de paramètres.