
摘要
视频对象分割是计算机视觉中的一个基本研究问题。近年来,许多技术经常利用注意力机制从视频序列中学习对象表示。然而,由于视频数据的时间变化,注意力图可能无法在视频帧之间很好地对齐感兴趣的对象,导致长期视频处理中累积误差。此外,现有的技术采用了复杂的架构,需要较高的计算复杂度,从而限制了将视频对象分割集成到低功耗设备中的能力。为了解决这些问题,我们提出了一种基于变形注意力蒸馏学习的自监督视频对象分割新方法。具体而言,我们设计了一种轻量级的视频对象分割架构,该架构能够有效适应时间变化。这是通过变形注意力机制实现的,在该机制中,注意力模块中的键和值具有灵活的位置,并且这些位置会在帧间进行更新。因此,所学的对象表示能够适应空间和时间两个维度的变化。我们通过一种新的知识蒸馏范式以自监督的方式训练所提出的架构,在这种范式中,变形注意力图被整合到蒸馏损失中。我们在包括DAVIS 2016/2017和YouTube-VOS 2018/2019在内的基准数据集上对我们的方法进行了定性和定量评估,并将其与现有方法进行了比较。实验结果验证了我们方法的优越性,不仅实现了最先进的性能,还达到了最优的内存使用效果。