
摘要
预训练的扩散模型在多种场景下展现出卓越的图像生成能力,能够通过可定制的文本提示实现高质量图像合成,体现出其捕捉通用特征的强大潜力。受此启发,本研究深入探索了利用扩散模型中隐含知识来解决跨域语义分割挑战的可行性。本文提出一种基于采样与特征融合技术的方法,以高效挖掘扩散模型的特征表达能力。为此,我们提出了DIffusion Feature Fusion(DIFF)架构,作为主干网络,通过扩散过程提取并融合有效的语义表征。借助文本到图像生成的强大能力,我们设计了一种新型训练框架,旨在隐式地从生成过程中学习后验知识。在域泛化语义分割任务中的系统评估表明,所提方法在缓解不同域间差异方面显著优于现有方法,并达到了当前最先进的性能水平(SOTA)。