2 个月前

在SAM中放宽图像特定提示要求:用于分割伪装对象的单一通用提示

Hu, Jian ; Lin, Jiayi ; Cai, Weitong ; Gong, Shaogang
在SAM中放宽图像特定提示要求:用于分割伪装对象的单一通用提示
摘要

伪装目标检测(COD)方法严重依赖于像素级标注的数据集。弱监督伪装目标检测(WSCOD)方法通过使用稀疏注释(如涂鸦或点)来减少标注工作量,但这可能导致精度下降。Segment Anything Model(SAM)在使用类似点的稀疏提示时表现出显著的分割能力。然而,手动提示并不总是可行的,因为在实际应用中可能无法获得这些提示。此外,它仅提供定位信息而非语义信息,这本质上会导致对目标解释的模糊性。在本研究中,我们的目标是消除对手动提示的需求。核心思想是利用跨模态思维链提示(CCTP),通过通用文本提示提供的语义信息来推理视觉提示。为此,我们引入了一种称为可泛化SAM(GenSAM)的测试时逐例适应机制,以自动生成和优化适用于WSCOD的视觉提示。具体而言,CCTP 使用视觉-语言模型将单个通用文本提示映射到图像特定的前景和背景热图上,从而获取可靠的视觉提示。此外,为了在测试时适应视觉提示,我们进一步提出了渐进式掩码生成(PMG)方法,通过迭代地重新加权输入图像,引导模型以从粗到细的方式关注目标。至关重要的是,所有网络参数都是固定的,避免了额外训练的需求。实验结果表明了GenSAM的优势。在三个基准数据集上的实验表明,GenSAM不仅优于点监督方法,而且在仅依赖通用任务描述作为提示的情况下,其性能与涂鸦监督方法相当。我们的代码位于:https://lwpyh.github.io/GenSAM/。

在SAM中放宽图像特定提示要求:用于分割伪装对象的单一通用提示 | 最新论文 | HyperAI超神经