
摘要
我们提出了一种用于半监督视频对象分割的新方法。该问题的本质在于,可用线索(例如带有对象掩码的视频帧)随着中间预测的增加而变得更加丰富。然而,现有的方法无法充分利用这一丰富的信息来源。为了解决这一问题,我们利用了记忆网络,并学习从所有可用来源中读取相关信息。在我们的框架中,带有对象掩码的过去帧构成了外部记忆,当前帧作为查询对象,通过记忆中的掩码信息进行分割。具体而言,查询和记忆在网络特征空间中密集匹配,覆盖所有时空像素位置,并以前馈方式完成。与先前的方法相比,大量使用引导信息使我们能够更好地应对诸如外观变化和遮挡等挑战。我们在最新的基准数据集上验证了我们的方法,并取得了最先进的性能(在 Youtube-VOS 验证集上的总体得分为 79.4,在 DAVIS 2016/2017 验证集上的 J 得分分别为 88.7 和 79.2),同时具有快速的运行时间(在 DAVIS 2016 验证集上每帧仅需 0.16 秒)。