
摘要
我们提出StreamDEQ,一种旨在以极低的每帧计算开销推断视频帧级表示的方法。在缺乏专用优化方案的情况下,传统深度网络通常在每一帧上从零开始进行特征提取。与此不同,我们致力于构建能够原生利用连续视频帧之间时间平滑性的流式识别模型。我们观察到,近年来兴起的隐式层模型为构建此类模型提供了便捷的基础,因为它们将表示定义为浅层网络的固定点,需通过迭代方法进行估计。我们的核心洞察在于:通过将推理迭代过程沿时间轴分布,并以最近一帧的表示作为每一帧的初始起点,从而实现计算资源的高效复用,显著降低整体处理时间。通过大量实验分析,我们证明StreamDEQ仅需数帧时间即可恢复接近最优的表示,并在整个视频时长内持续保持最新状态。在视频语义分割、视频目标检测以及视频中人体姿态估计等任务上的实验结果表明,StreamDEQ在保持与基线模型相当精度的同时,推理速度提升了2至4倍以上。