8 个月前

摘要

得益于大规模语言模型和跨模态对齐技术的进步，现有的多模态视频理解方法在离线场景中已经取得了显著的性能。然而，作为现实世界中最常见的媒体形式之一，在线视频流却很少受到关注。与离线视频相比，在线视频流的“动态”特性给现有模型的直接应用带来了挑战，并引入了新的问题，例如极长时间信息的存储以及连续视觉内容与“异步”用户提问之间的交互。因此，本文提出了一种模拟人类记忆机制的视频-语言模型——Flash-VStream。该模型能够在实时处理极长的视频流的同时响应用户的查询。与现有模型相比，Flash-VStream在推理延迟和显存消耗方面实现了显著降低，这对于在线流媒体视频的理解至关重要。此外，鉴于现有的视频理解基准测试主要集中在离线场景，我们提出了VStream-QA，一种专门为在线视频流理解设计的新颖问答基准测试。在该基准测试上与流行的现有方法进行对比表明，我们的方法在这种具有挑战性的设置下表现出色。为了验证我们方法的泛化能力，我们进一步在现有的视频理解基准测试上对其进行了评估，并在离线场景中也达到了最先进的性能。所有代码、模型和数据集均可在https://invinciblewyq.github.io/vstream-page/ 获取。

源 PDF 查看代码