2 个月前
个性化一次性分割模型
Renrui Zhang; Zhengkai Jiang; Ziyu Guo; Shilin Yan; Junting Pan; Xianzheng Ma; Hao Dong; Peng Gao; Hongsheng Li

摘要
由大规模数据预训练驱动的“分割一切”模型(Segment Anything Model, SAM)已被证明是一个强大且可提示的框架,彻底革新了分割模型。尽管该模型具有广泛的适用性,但无需人工提示即可针对特定视觉概念定制SAM的研究仍处于探索阶段,例如自动分割不同图像中的宠物狗。在本文中,我们提出了一种无需训练的个性化方法,称为PerSAM。仅需提供一张带有参考掩码的图像,PerSAM首先通过位置先验定位目标概念,并通过三种技术在其他图像或视频中对其进行分割:目标引导注意力、目标语义提示和级联后处理优化。通过这种方式,我们有效地将SAM适应于私人使用而无需任何训练。为了进一步减少掩码的模糊性,我们还提出了一种高效的单次微调变体——PerSAM-F。在整个SAM冻结的情况下,我们引入了两个可学习的权重用于多尺度掩码,仅需在10秒内训练2个参数以提高性能。为展示我们的方法的有效性,我们构建了一个新的分割数据集——PerSeg,用于个性化评估,并在视频对象分割任务上测试了我们的方法,取得了具有竞争力的性能。此外,我们的方法还可以增强DreamBooth,使其能够个性化Stable Diffusion进行文本到图像生成,从而消除背景干扰以更好地学习目标外观。代码已发布在https://github.com/ZrrSkywalker/Personalize-SAM