6 个月前

摘要

半监督视频对象分割（Semi-supervised Video Object Segmentation, VOS）旨在对视频首帧中指定的目标对象实现像素级跟踪。为了充分挖掘目标对象的外观信息，像素级特征匹配在VOS任务中被广泛采用。传统的特征匹配采用满射（surjective）方式，即仅考虑从查询帧到参考帧的最佳匹配结果。在此机制下，查询帧中的每个像素位置仅对应参考帧中的最优匹配位置，而不论参考帧中某一位置被引用的频率如何。该方法在大多数情况下表现良好，且对目标外观的快速变化具有较强的鲁棒性，但在查询帧中存在与目标外观相似的背景干扰物时，可能引发严重错误。为缓解这一问题，本文提出一种双射（bijective）匹配机制，实现查询帧与参考帧之间的双向最优匹配。在为查询帧像素寻找最佳匹配之前，首先考虑参考帧像素的最优匹配，以避免参考帧中的任意像素被过度引用。由于该机制具有严格的约束性——仅当两个像素互为确定性匹配时才建立连接，因此能够有效消除背景干扰物的影响。此外，本文还提出一种掩码嵌入（mask embedding）模块，以改进现有的掩码传播方法。该模块通过融合带有坐标信息的历史掩码，能够有效捕捉目标对象在空间中的位置信息，从而提升分割结果的准确性和一致性。

源 PDF