HyperAI超神经

QuickVideo:系统算法协同设计实现实时长视频理解

Benjamin Schneider, Dongfu Jiang, Chao Du, Tianyu Pang, Wenhu Chen
发布日期: 5/25/2025
QuickVideo:系统算法协同设计实现实时长视频理解
摘要

长视频理解已成为现实应用中的关键能力,例如视频监控、会议摘要、教育讲座分析和体育广播。然而,对于视频大模型(VideoLLMs)而言,长视频理解在计算上仍然难以承受,主要原因是两个瓶颈:1)顺序视频解码,即将原始比特流转换为RGB帧的过程,对于长达一小时的视频输入可能需要多达一分钟的时间;2)进行大模型推理时所需的高达数百万个标记的预填充操作成本高昂,导致高延迟和内存使用量增加。为了应对这些挑战,我们提出了一种系统与算法协同设计的方法——QuickVideo,该方法显著加速了长视频理解,支持实时下游应用。QuickVideo 包含三项关键技术革新:QuickDecoder,一种并行化的基于CPU的视频解码器,通过将视频分割成关键帧对齐的区间并同时处理这些区间,实现了2-3倍的速度提升;QuickPrefill,一种内存高效的预填充方法,利用KV缓存剪枝技术,在减少GPU内存使用的同时支持更多帧数;以及一种重叠方案,该方案将CPU视频解码与GPU推理过程重叠执行。这些组件共同作用下,在长视频输入上的推理时间减少了约一分钟,即使在有限的硬件条件下也能实现可扩展且高质量的视频理解。实验表明,QuickVideo 能够适应不同长度和采样率的视频处理需求,在实际应用中使长视频处理变得可行。