11 天前
SynthRef:面向目标分割的合成指代表达生成
Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer, Xavier Giro-i-Nieto

摘要
深度学习的最新进展在视觉定位任务(如语言引导的视频目标分割)中取得了显著进步。然而,为这些任务收集大规模数据集在标注时间上成本高昂,成为制约发展的瓶颈。为此,我们提出了一种新颖的方法——SynthRef,用于生成图像(或视频帧)中目标对象的合成指代表达(synthetic referring expressions),并首次发布了一个包含合成指代表达的大规模视频目标分割数据集。实验结果表明,仅使用我们生成的合成指代表达进行训练,即可显著提升模型在不同数据集间的泛化能力,且无需额外的标注成本。此外,我们的方法具有通用性,可适用于任意目标检测或分割数据集。