Flash-VStream : Compréhension en temps réel basée sur la mémoire pour les flux vidéo longs

Profitant des progrès réalisés dans les grands modèles linguistiques et l'alignement intermodal, les méthodes existantes de compréhension multimodale des vidéos ont obtenu des performances remarquables dans un scénario hors ligne. Cependant, les flux vidéo en ligne, l'un des formats médiatiques les plus courants dans le monde réel, n'ont que rarement fait l'objet d'une attention particulière. Par rapport aux vidéos hors ligne, la nature « dynamique » des flux vidéo en ligne pose des défis pour l'application directe des modèles existants et introduit de nouveaux problèmes, tels que le stockage d'informations à très long terme et l'interaction entre le contenu visuel continu et les questions utilisateur « asynchrones ». Ainsi, dans cet article, nous présentons Flash-VStream, un modèle vidéo-langue qui simule le mécanisme mnésique humain. Notre modèle est capable de traiter en temps réel des flux vidéo extrêmement longs tout en répondant simultanément aux requêtes utilisateurs. Comparé aux modèles existants, Flash-VStream réalise des réductions significatives de la latence d'inférence et de la consommation de VRAM (vidéo RAM), ce qui est étroitement lié à la compréhension des flux vidéo en ligne. De plus, étant donné que les jeux de données actuels pour la compréhension vidéo se concentrent principalement sur les scénarios hors ligne, nous proposons VStream-QA, une nouvelle référence d'évaluation pour les questions-réponses spécifiquement conçue pour la compréhension des flux vidéo en ligne. Les comparaisons avec les méthodes populaires existantes sur cette nouvelle référence démontrent la supériorité de notre méthode face à ce contexte particulièrement complexe. Pour vérifier la généralisation de notre approche, nous l'évaluons également sur des jeux de données existants pour la compréhension vidéo et obtenons des performances au niveau de l'état de l'art dans les scénarios hors ligne également. Tout le code source, les modèles et les jeux de données sont disponibles à l'adresse suivante : https://invinciblewyq.github.io/vstream-page/