
摘要
虚拟试穿旨在给定店内服装图像和参考人物图像的情况下,生成逼真的试穿效果。现有方法通常采用多阶段框架,分别处理衣物形变与人体融合问题,或严重依赖中间阶段的语义解析标签,而这些标签可能存在噪声甚至不准确。为解决上述挑战,本文提出一种单阶段试穿框架,并引入一种新型可变形注意力流(Deformable Attention Flow, DAFlow),该方法将可变形注意力机制应用于多流估计。仅以姿态关键点作为引导,分别对参考人物图像和服装图像估计自注意力流与交叉注意力流。通过采样多个流场,利用注意力机制同时提取并融合来自不同语义区域的特征级与像素级信息,从而在端到端的框架下实现衣物形变与人体合成的同步处理,显著提升生成结果的逼真度。在两个主流试穿数据集上的大量实验表明,所提方法在定性和定量评价上均达到当前最优性能。此外,针对其他两项图像编辑任务的附加实验进一步验证了该方法在多视角合成与图像动画等场景中的通用性与有效性。