17 天前
用于高效视频处理的Delta蒸馏
Amirhossein Habibian, Haitam Ben Yahia, Davide Abati, Efstratios Gavves, Fatih Porikli

摘要
本文旨在通过利用视频帧之间的时序冗余性,加速视频流处理任务(如目标检测与语义分割)。与传统依赖运动对齐(如光流)进行特征传播与变形的方法不同,本文提出一种新颖的知识蒸馏框架,命名为Delta蒸馏(Delta Distillation)。在该框架中,学生模型学习教师模型在时序上中间特征的变化规律。我们证明,由于视频帧内部存在的时序冗余,这些时序变化能够被高效地蒸馏。在推理阶段,教师模型与学生模型协同工作以生成预测结果:教师模型仅在关键帧上提取初始表示,而学生模型则通过迭代估计并应用后续帧的特征增量(delta)来逐步更新预测。此外,本文还探讨了多种设计选择,以学习最优的学生模型架构,其中包括端到端可学习的架构搜索方法。在涵盖多种架构(包括最高效的模型)的广泛实验中,我们验证了Delta蒸馏在视频语义分割与目标检测任务中,显著提升了准确率与效率之间的权衡表现,达到了新的最先进水平。最后,我们发现,作为副产物,Delta蒸馏还能有效提升教师模型本身的时序一致性。