MovieChat : Du Jeton Dense à la Mémoire Éparse pour la Compréhension des Vidéos Longues

Récemment, l'intégration de modèles fondamentaux vidéo et de grands modèles linguistiques pour construire un système de compréhension vidéo permet de surmonter les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos comportant très peu d'images. Pour les vidéos longues, la complexité des calculs, le coût en mémoire et la connexion temporelle à long terme posent des défis supplémentaires. En s'appuyant sur le modèle de mémoire d'Atkinson-Shiffrin, en utilisant les jetons (tokens) dans les Transformers comme vecteurs de mémoire combinés avec notre mécanisme de mémoire spécialement conçu, nous proposons MovieChat pour relever ces défis. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues, accompagnées du benchmark MovieChat-1K comprenant 1000 vidéos longues et 14000 annotations manuelles pour valider l'efficacité de notre méthode.