15 天前
扩散模型在少样本语义分割中的潜力释放
Muzhi Zhu, Yang Liu, Zekai Luo, Chenchen Jing, Hao Chen, Guangkai Xu, Xinlong Wang, Chunhua Shen

摘要
扩散模型不仅在图像生成领域取得了显著成就,还展现出作为利用无标签数据进行有效预训练方法的巨大潜力。基于扩散模型在语义对应关系与开放词汇分割任务中所揭示的广泛潜力,本文首次探索将潜在扩散模型(Latent Diffusion Model)应用于少样本语义分割任务。近年来,受大型语言模型上下文学习能力的启发,少样本语义分割已演变为上下文分割(In-context Segmentation)任务,成为评估通用分割模型性能的关键指标之一。在此背景下,本文聚焦于少样本语义分割任务,为未来基于扩散模型的通用分割模型发展奠定坚实基础。我们的研究首先关注如何促进查询图像(query image)与支持图像(support image)之间的有效交互,由此提出一种基于自注意力机制的键值(KV)融合方法。随后,进一步深入优化支持掩码(support mask)信息的注入方式,并重新审视如何从查询掩码(query mask)中提供合理的监督信号。基于上述分析,我们构建了一个简洁而高效的框架——DiffewS,该框架最大程度地保留了原始潜在扩散模型的生成架构,同时充分挖掘其预训练先验知识的潜力。实验结果表明,该方法在多种设置下均显著超越了现有最先进(SOTA)模型的性能。