3 个月前

像素级双射匹配用于视频对象分割

Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee
像素级双射匹配用于视频对象分割
摘要

半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)旨在对视频首帧中指定的目标对象实现像素级跟踪。为了充分挖掘目标对象的外观信息,像素级特征匹配在VOS任务中被广泛采用。传统的特征匹配采用满射(surjective)方式,即仅考虑从查询帧到参考帧的最佳匹配结果。在此机制下,查询帧中的每个像素位置仅对应参考帧中的最优匹配位置,而不论参考帧中某一位置被引用的频率如何。该方法在大多数情况下表现良好,且对目标外观的快速变化具有较强的鲁棒性,但在查询帧中存在与目标外观相似的背景干扰物时,可能引发严重错误。为缓解这一问题,本文提出一种双射(bijective)匹配机制,实现查询帧与参考帧之间的双向最优匹配。在为查询帧像素寻找最佳匹配之前,首先考虑参考帧像素的最优匹配,以避免参考帧中的任意像素被过度引用。由于该机制具有严格的约束性——仅当两个像素互为确定性匹配时才建立连接,因此能够有效消除背景干扰物的影响。此外,本文还提出一种掩码嵌入(mask embedding)模块,以改进现有的掩码传播方法。该模块通过融合带有坐标信息的历史掩码,能够有效捕捉目标对象在空间中的位置信息,从而提升分割结果的准确性和一致性。