MovieChat+ : Mémoire Éparse Sensible aux Questions pour la Réponse à des Questions sur des Vidéos Longues

Récemment, l’intégration de modèles fondamentaux vidéo et de modèles linguistiques massifs pour construire un système de compréhension vidéo permet de surmonter les limites des tâches visuelles prédéfinies et spécifiques. Toutefois, les méthodes existantes recourent soit à des modules spatio-temporels complexes, soit à des modèles perceptifs supplémentaires pour extraire des caractéristiques temporelles, et se limitent à de courtes vidéos. Dans le cas de vidéos longues, la complexité computationnelle et la charge mémoire liées aux connexions temporelles à long terme augmentent considérablement, posant ainsi des défis supplémentaires. En s’appuyant sur le modèle mémoire d’Atkinson-Shiffrin, en utilisant les tokens des Transformers comme vecteurs de mémoire en combinaison avec un mécanisme de mémoire spécialement conçu, nous proposons MovieChat afin de relever ces défis. Nous améliorons les modèles pré-entraînés multimodaux de grande taille pour la compréhension de vidéos longues, sans intégrer de modules temporels entraînables supplémentaires, en adoptant une approche zero-shot. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues, accompagnée du benchmark MovieChat-1K, comprenant 1 000 vidéos longues, 2 000 étiquettes de repérage temporel et 14 000 annotations manuelles, permettant de valider l’efficacité de notre méthode. Le code ainsi que le jeu de données sont accessibles via le lien suivant : https://github.com/rese1f/MovieChat.