
摘要
本文研究基于图像的虚拟试穿(image-based virtual try-on),即给定一张人物图像和一张服装图像,生成一幅该人物穿戴指定服装的合成图像。以往方法通常借鉴现有的基于样本的图像修复扩散模型(exemplar-based inpainting diffusion models)来提升生成图像的自然度,相较于其他方法(如基于GAN的方法),其视觉质量有所改善,但普遍存在难以保持服装外观特征一致性的缺陷。为克服这一局限,本文提出一种新型扩散模型,显著提升服装保真度,生成更加逼真的虚拟试穿图像。所提方法命名为IDM-VTON,采用两个不同模块对服装图像的语义信息进行编码:在扩散模型的基础UNet架构上,1)将视觉编码器提取的高层语义特征融合至交叉注意力(cross-attention)层;2)将并行UNet提取的低层特征融合至自注意力(self-attention)层。此外,本文还为服装与人物图像设计了详尽的文本提示(textual prompts),进一步增强生成图像的真实性。最后,我们提出一种基于人物-服装图像对的定制化方法,显著提升了生成结果的保真度与真实感。实验结果表明,所提方法在保留服装细节与生成逼真虚拟试穿图像方面,无论在定性还是定量评估上均优于先前的扩散模型及GAN-based方法。此外,该定制化方法在真实场景中也展现出良好的实用效果。更多可视化结果请访问项目主页:https://idm-vton.github.io