
摘要
在语义分割任务中,大多数现有的实时深度学习模型采用独立处理每一帧的方式进行训练,这可能导致视频序列中出现结果不一致的问题。为解决这一问题,一些先进方法开始考虑视频序列中的时序相关性,例如通过光流将分割结果传播至相邻帧,或利用其他帧来提取当前帧的表示,但这些方法可能引入误差,或导致延迟分布不均。本文提出一种高效的语义视频分割方法,在推理阶段仍以逐帧方式进行处理。与以往的逐帧模型不同,我们在训练过程中显式地将帧间的时序一致性作为额外约束,并将该约束嵌入分割网络中。因此,在推理阶段,可对每一帧独立处理,实现零延迟,同时在不增加额外计算开销和后处理步骤的前提下,显著提升时序一致性。为实现实时运行,我们采用轻量级模型结构。为缩小轻量模型与大型模型之间的性能差距,本文设计了新型的知识蒸馏方法。实验结果表明,我们的方法在Cityscapes和Camvid等主流基准数据集上,相较于以往基于关键帧的方法,在精度与推理速度之间取得了更优的平衡。此外,与独立训练每一帧的基线方法相比,本方法在时序一致性方面也显著提升。代码已开源,访问地址为:https://tinyurl.com/segment-video