17 天前
用于高质量视频实例分割的视频掩码转换器
Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu

摘要
尽管视频实例分割(Video Instance Segmentation, VIS)近年来取得了快速进展,现有方法在生成高质量、边界细节精确的分割掩码方面仍面临挑战。此外,预测结果在时间维度上常出现不稳定性,表明当前方法对时序一致性信息的利用不足或未被充分挖掘。本文旨在解决上述问题,致力于实现更精细且时序更稳定的VIS掩码预测。为此,我们首先提出一种名为视频掩码精炼器(Video Mask Transfiner, VMT)的方法。该方法得益于高效设计的视频Transformer结构,能够有效利用细粒度的高分辨率特征。VMT可检测并定位视频片段中每条轨迹(tracklet)内稀疏的易错时空区域,并结合局部上下文与实例级语义信息对这些区域进行精细化优化。其次,我们发现当前主流YouTube-VIS数据集所采用的粗粒度边界标注是限制分割质量的关键因素之一。基于VMT架构,我们进一步设计了一种自动化标注精炼方法,通过迭代训练与自我修正机制,逐步提升训练数据的标注精度。为评估VIS中高质量掩码预测的性能,我们构建了HQ-YTVIS数据集,该数据集包含人工重新标注的测试集以及经自动精炼的训练数据。我们在HQ-YTVIS、YouTube-VIS、OVIS和BDD100K MOTS等多个基准上,将VMT与最新的先进方法进行对比。实验结果充分证明,本方法在捕捉复杂动态物体的精确细节方面具有显著优势,有效提升了分割的精度与时序稳定性。