
摘要
时间对应关系——即跨帧链接像素或对象——是视频模型中的一个基本监督信号。为了对动态场景进行全景理解,我们进一步将这一概念扩展到每个片段。具体而言,我们的目标是同时学习粗略的片段级匹配和精细的像素级匹配。为此,我们设计了两个新颖的学习目标。为了验证我们的方法,我们采用了深度孪生模型,并训练该模型在执行目标任务的同时学习两个不同层次(即片段和像素)的时间对应关系。在推理阶段,该模型可以独立处理每一帧,无需额外计算和后处理。我们展示了每帧推理模型在Cityscapes-VPS和VIPER数据集上能够取得新的最先进结果。此外,由于其高效率,该模型的运行时间仅为之前最先进方法的三分之一。