2 个月前
ReferDINO:基于视觉定位的指代视频对象分割
Tianming Liang; Kun-Yu Lin; Chaolei Tan; Jianguo Zhang; Wei-Shi Zheng; Jian-Fang Hu

摘要
参考视频对象分割(RVOS)旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展,但当前的RVOS模型在处理复杂对象描述时仍面临挑战,这主要是由于其有限的视频-语言理解能力。为了解决这一问题,我们提出了ReferDINO,这是一种端到端的RVOS模型,继承了预训练视觉定位基础模型的强大视觉-语言理解能力,并进一步具备了有效的时序理解和对象分割能力。在ReferDINO中,我们贡献了三项技术创新,以有效适应基础模型到RVOS任务:对象一致性时序增强器:利用预训练的对象-文本表示来增强时序理解和对象一致性;基于定位的可变形掩码解码器:整合文本和定位条件生成精确的对象掩码;置信度感知查询剪枝策略:在不牺牲性能的前提下显著提高对象解码效率。我们在五个公开的RVOS基准数据集上进行了广泛的实验,结果表明我们提出的ReferDINO显著优于现有的最先进方法。项目页面:https://isee-laboratory.github.io/ReferDINO