MA-LMM : Modèle multimodal à grande échelle avec mémoire pour la compréhension à long terme des vidéos

Avec le succès des grands modèles de langage (LLMs), l'intégration d'un modèle visuel dans les LLMs pour construire des modèles fondamentaux vision-langue a suscité un intérêt croissant récemment. Cependant, les grands modèles multimodaux basés sur les LLMs existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité de frames pour la compréhension de vidéos courtes. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace et performant pour la compréhension à long terme des vidéos. Au lieu d'essayer de traiter plus de frames simultanément comme la plupart des travaux existants, nous proposons de traiter les vidéos en ligne et de stocker les informations vidéo passées dans une banque mémoire. Cela permet à notre modèle de faire référence au contenu vidéo historique pour l'analyse à long terme sans dépasser les contraintes de longueur du contexte des LLMs ou les limites de mémoire GPU. Notre banque mémoire peut être intégrée sans problème aux modèles multimodaux LLMs actuels de manière standardisée. Nous menons des expériences approfondies sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions sur des vidéos et la légendage vidéo, et notre modèle atteint des performances d'état de l'art sur plusieurs jeux de données. Le code est disponible à l'adresse suivante : https://boheumd.github.io/MA-LMM/.