17 天前
交叉学习用于快速在线视频实例分割
Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu

摘要
在视频实例分割(Video Instance Segmentation, VIS)及其他视频理解任务中,对帧间时序视觉上下文的建模至关重要。本文提出了一种快速的在线VIS模型——CrossVIS。针对VIS中的时序信息建模问题,我们设计了一种新颖的交叉学习(crossover learning)机制,该机制利用当前帧的实例特征,实现对其他帧中相同实例的像素级定位。与以往方法不同,交叉学习无需引入额外的网络参数即可完成特征增强。通过与实例分割损失相结合,交叉学习能够高效地实现跨帧的实例到像素关系学习,并在推理阶段实现“零成本”的性能提升。此外,我们还提出了一种全局平衡的实例嵌入分支,以实现更精确且更稳定的在线实例关联。我们在三个具有挑战性的VIS基准数据集——YouTube-VIS-2019、OVIS和YouTube-VIS-2021上进行了大量实验,验证所提方法的有效性。据我们所知,CrossVIS在所有在线VIS方法中达到了当前最优性能,并在延迟与精度之间取得了良好的平衡。相关代码将公开发布,以促进后续研究。