2 个月前
FitDiT:提升虚拟试衣的真实服装细节以实现高保真度
Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu

摘要
尽管基于图像的虚拟试穿技术已经取得了显著进展,但新兴方法在不同场景下生成高保真和鲁棒的试穿图像时仍面临诸多挑战。这些方法通常在纹理感知维护和尺寸感知适配等方面存在困难,这些问题限制了它们的整体效果。为了解决这些局限性,我们提出了一种新的服装感知增强技术,称为FitDiT,该技术利用扩散变换器(Diffusion Transformers, DiT)分配更多参数和注意力到高分辨率特征上,以实现高保真的虚拟试穿。首先,为了进一步提高纹理感知维护能力,我们引入了一种服装纹理提取器,该提取器通过融合服装先验演化来微调服装特征,有助于更好地捕捉条纹、图案和文字等丰富细节。此外,我们通过定制频率距离损失引入频域学习,以增强高频服装细节的表现。针对尺寸感知适配问题,我们采用了膨胀-松弛掩模策略,该策略能够适应不同长度的服装,在跨类别试穿过程中防止生成填充整个掩模区域的服装。凭借上述设计,FitDiT在定性和定量评估中均超越了所有基线方法。它在生成合身且具有照片级真实感和复杂细节的服装方面表现出色,并且在对DiT结构进行瘦身优化后,单张1024x768图像的推理时间仅为4.57秒,优于现有方法。