2 个月前
MaskRIS:语义失真感知的数据增强方法用于指代图像分割
Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim

摘要
指代图像分割(RIS)是一项先进的视觉-语言任务,涉及根据自由形式的文本描述在图像中识别并分割对象。尽管先前的研究主要集中在对齐视觉和语言特征上,但对于数据增强等训练技术的探索仍相对不足。在这项工作中,我们探讨了适用于RIS的有效数据增强方法,并提出了一种新的训练框架,称为掩码指代图像分割(MaskRIS)。我们观察到,传统的图像增强方法在RIS中表现不佳,导致性能下降,而简单的随机掩码则显著提升了RIS的性能。MaskRIS结合了图像和文本掩码,并通过畸变感知上下文学习(DCL)充分利用掩码策略的优势。这种方法可以提高模型对遮挡、不完整信息以及各种语言复杂性的鲁棒性,从而实现显著的性能提升。实验结果表明,MaskRIS可以轻松应用于多种RIS模型,在完全监督和弱监督设置下均优于现有方法。最终,MaskRIS在RefCOCO、RefCOCO+和RefCOCOg数据集上取得了最新的最佳性能。代码可在https://github.com/naver-ai/maskris 获取。