2 个月前

GroPrompt:高效的基于地面的提示和适应方法用于指代视频对象分割

Ci-Siang Lin; I-Jieh Liu; Min-Hung Chen; Chien-Yi Wang; Sifei Liu; Yu-Chiang Frank Wang
GroPrompt:高效的基于地面的提示和适应方法用于指代视频对象分割
摘要

指代视频对象分割(RVOS)旨在根据查询句子在整个视频中分割出所指的对象。现有的大多数方法需要使用密集的掩码注释进行端到端训练,这不仅计算成本高昂,而且扩展性较差。在本工作中,我们提出了一种基于弱监督的 Grounded Prompting(GroPrompt)框架,以高效地适应基础分割模型来解决RVOS问题。具体而言,我们提出了文本感知提示对比学习(TAP-CL),仅通过框注释增强位置提示与指代句子之间的关联性。TAP-CL包括帧级别的文本对比提示学习(TextCon)和模态对比提示学习(ModalCon),以及视频级别的相应学习方法。通过提出的TAP-CL,我们的GroPrompt框架可以从视频中生成时间一致且文本感知的位置提示,描述所指对象的位置和运动。在标准的RVOS基准测试(Ref-YouTube-VOS、Ref-DAVIS17、A2D-Sentences 和 JHMDB-Sentences)中的实验结果表明,仅使用边界框弱监督的情况下,我们提出的GroPrompt框架具有竞争力的性能。

GroPrompt:高效的基于地面的提示和适应方法用于指代视频对象分割 | 最新论文 | HyperAI超神经