
摘要
在本文中,我们提出了一种统一的、端到端可训练的时空卷积神经网络(CNN)模型,用于视频对象分割(VOS),该模型由两个分支组成,即时间一致性分支和空间分割分支。具体而言,时间一致性分支以对抗方式从无标签视频数据预训练而来,旨在捕捉视频序列中的动态外观和运动线索,以指导对象分割。空间分割分支则专注于根据学习到的外观和运动线索精确地分割对象。为了获得准确的分割结果,我们设计了一个从粗到细的过程,依次在多尺度特征图上应用设计好的注意力模块,并将它们连接起来生成最终预测。通过这种方式,空间分割分支被强制逐步集中在对象区域。这两个分支以端到端的方式在视频分割序列上联合微调。我们在三个具有挑战性的数据集(即 DAVIS-2016、DAVIS-2017 和 Youtube-Object)上进行了多次实验,结果显示我们的方法在性能上优于现有最先进的方法。代码可在 https://github.com/longyin880815/STCNN 获取。