2 个月前

Flash-VStream:基于内存的长视频流实时理解

Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin
Flash-VStream:基于内存的长视频流实时理解
摘要

得益于大规模语言模型和跨模态对齐技术的进步,现有的多模态视频理解方法在离线场景中已经取得了显著的性能。然而,作为现实世界中最常见的媒体形式之一,在线视频流却很少受到关注。与离线视频相比,在线视频流的“动态”特性给现有模型的直接应用带来了挑战,并引入了新的问题,例如极长时间信息的存储以及连续视觉内容与“异步”用户提问之间的交互。因此,本文提出了一种模拟人类记忆机制的视频-语言模型——Flash-VStream。该模型能够在实时处理极长的视频流的同时响应用户的查询。与现有模型相比,Flash-VStream在推理延迟和显存消耗方面实现了显著降低,这对于在线流媒体视频的理解至关重要。此外,鉴于现有的视频理解基准测试主要集中在离线场景,我们提出了VStream-QA,一种专门为在线视频流理解设计的新颖问答基准测试。在该基准测试上与流行的现有方法进行对比表明,我们的方法在这种具有挑战性的设置下表现出色。为了验证我们方法的泛化能力,我们进一步在现有的视频理解基准测试上对其进行了评估,并在离线场景中也达到了最先进的性能。所有代码、模型和数据集均可在https://invinciblewyq.github.io/vstream-page/ 获取。

Flash-VStream:基于内存的长视频流实时理解 | 最新论文 | HyperAI超神经