
摘要
基于时空记忆(STM)的视频对象分割(VOS)网络通常每几帧就增加一次内存库,从而表现出优异的性能。然而,1)随着视频长度的增加,硬件无法承受不断增长的内存需求;2)存储大量信息不可避免地会引入大量噪声,这不利于从内存库中读取最重要的信息。在本文中,我们提出了一种循环动态嵌入(RDE),以构建固定大小的内存库。具体而言,我们通过提出的时空聚合模块(SAM)显式生成和更新RDE,该模块利用了历史信息的线索。为了避免因SAM反复使用而导致的误差累积,我们在训练阶段提出了一个无偏指导损失函数,使SAM在长视频中更加稳健。此外,由于网络推理不准确,内存库中的预测掩模也不准确,这会影响查询帧的分割效果。为了解决这一问题,我们设计了一种新颖的自校正策略,使得网络能够修复内存库中不同质量掩模的嵌入。大量实验表明,我们的方法在性能和速度之间达到了最佳平衡。代码可在https://github.com/Limingxing00/RDE-VOS-CVPR2022 获取。