
摘要
扩散模型在图像生成任务中展现出卓越的性能。尽管已有多种具有不同网络结构的少样本语义分割(Few-Shot Semantic Segmentation, FSS)模型被提出,但其性能提升已逐渐进入瓶颈期。本文首次将扩散模型引入FSS任务,提出一种名为DifFSS的新范式。DifFSS作为一种创新的FSS框架,能够在不修改现有先进FSS模型网络结构的前提下,显著提升其性能。具体而言,我们利用扩散模型强大的生成能力,以支持图像的语义掩码(semantic mask)、草图(scribble)或软HED边界(soft HED boundary)作为控制条件,生成多样化的辅助支持图像。这一生成过程模拟了查询图像类别内部的多样性,如颜色、纹理变化及光照差异等。由此,FSS模型可参考更为丰富的支持图像,从而学习到更具鲁棒性的特征表示,实现分割性能的持续提升。在三个公开可用的数据集上,基于现有先进FSS模型的大量实验验证了扩散模型在FSS任务中的有效性。此外,本文还深入探讨了扩散模型不同输入设置对分割性能的影响。我们期望这一全新的范式能为融合人工智能生成内容的FSS研究提供重要启发。代码已开源,地址为:https://github.com/TrinitialChan/DifFSS