11 天前
用于快速视频语义分割的时序分布网络
Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff, Federico Perazzi

摘要
我们提出TDNet,一种用于快速且精准视频语义分割的时序分布网络。我们观察到,深度卷积神经网络(CNN)中某一高层特征层的特征,可通过组合多个浅层子网络提取的特征来近似表示。利用视频中固有的时序连续性,我们将这些子网络分布于连续的视频帧上。因此,在每个时间步,仅需执行轻量级计算,从单一子网络中提取一组子特征。随后,通过引入一种新颖的注意力传播模块,将这些子特征重新组合,以补偿帧间存在的几何形变。此外,我们还设计了一种分组知识蒸馏损失函数,进一步提升了整体特征与子特征层面的表示能力。在Cityscapes、CamVid和NYUD-v2数据集上的实验表明,本方法在显著提升运行速度与降低延迟的同时,实现了当前最优的分割精度。