
摘要
本文介绍了虚拟试脱(Virtual Try-Off, VTOFF)这一新颖的任务,旨在从单张穿着者的照片中生成标准化的服装图像。与传统的虚拟试穿(Virtual Try-On, VTON)不同,后者通过数字手段为模特穿上衣物,而VTOFF的目标是从穿着者身上提取出规范化的服装图像,这在捕捉服装形状、纹理和复杂图案方面带来了独特的挑战。这一明确的目标使得VTOFF特别适用于评估生成模型的重建保真度。我们提出了TryOffDiff模型,该模型通过基于SigLIP的视觉条件对Stable Diffusion进行了适应性改进,以确保高保真度和细节保留。在修改后的VITON-HD数据集上的实验表明,我们的方法在需要较少预处理和后处理步骤的情况下,优于基于姿态转移和虚拟试穿的基线方法。我们的分析显示,传统的图像生成指标无法充分评估重建质量,因此我们依赖于DISTS进行更准确的评价。研究结果突显了VTOFF在电子商务应用中提升产品图像质量、推进生成模型评估以及激发未来高保真重建工作的潜力。演示、代码和模型可在以下网址获取:https://rizavelioglu.github.io/tryoffdiff/