17 天前

DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割

Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov
DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割
摘要

大规模预训练的潜在扩散模型(Latent Diffusion Models, LDMs)展现出生成创意内容的非凡能力,可通过少量样本微调适应用户数据,并能够基于其他模态(如语义地图)进行条件生成。然而,它们是否可作为大规模数据生成工具,例如用于提升感知系统中的各项任务(如语义分割)?我们在自动驾驶的背景下探讨了这一问题,并给出了明确的肯定回答:“是的”。为此,我们提出了一种高效的数据生成流程——DGInStyle。首先,我们研究了如何将预训练的LDM专门化于特定狭窄领域内的语义可控生成。其次,我们提出了一种“风格替换”(Style Swap)技术,使模型能够融合学习到的语义控制能力,从而赋予其丰富的生成先验以精确的语义调控能力。第三,我们设计了一种多分辨率潜在融合(Multi-resolution Latent Fusion)机制,有效缓解了LDM对主导物体的固有偏好问题。基于DGInStyle,我们生成了一个多样化的真实街景数据集,在该数据集上训练了一个领域无关的语义分割模型,并在多个主流自动驾驶数据集上对其性能进行了评估。实验结果表明,与先前的最先进方法相比,我们的方法显著提升了多种领域泛化方法的性能表现。相关源代码与生成的数据集已公开,访问地址为:https://dginstyle.github.io。

DGInStyle:基于图像扩散模型与风格化语义控制的领域泛化语义分割 | 最新论文 | HyperAI超神经