
摘要
我们介绍了Cutie,一种具有对象级记忆读取功能的视频对象分割(VOS)网络,该网络将存储在内存中的对象表示重新融入视频对象分割结果中。近期关于VOS的研究采用了自底向上的像素级记忆读取方法,这种方法由于匹配噪声的影响,尤其是在存在干扰物的情况下,导致在更具挑战性的数据集上性能较低。相比之下,Cutie通过适应一组小的对象查询来执行自顶向下的对象级记忆读取。通过这些查询,它利用基于查询的对象变换器(query-based object transformer, qt,因此称为Cutie)与自底向上的像素特征进行迭代交互。对象查询充当目标对象的高层次摘要,而高分辨率特征图则保留用于精确分割。结合前景背景掩码注意力机制,Cutie能够清晰地分离前景对象与背景的语义。在具有挑战性的MOSE数据集上,Cutie在运行时间相似的情况下比XMem提高了8.7 J&F指标,并且在速度快三倍的情况下比DeAOT提高了4.2 J&F指标。代码可在以下链接获取:https://hkchengrex.github.io/Cutie