Command Palette
Search for a command to run...
Tstars-Tryon 1.0:针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究
Tstars-Tryon 1.0:针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究
摘要
图像生成与编辑领域的最新进展为虚拟试穿(virtual try-on)开辟了新的机遇。然而,现有方法在应对复杂的现实世界需求时仍显不足。我们推出了 Tstars-Tryon 1.0,这是一个具备鲁棒性、写实性、多功能性且高效的商用级虚拟试穿系统。首先,我们的系统在应对极端姿态、剧烈光照变化、运动模糊以及其他野外环境(in-the-wild)等挑战性场景时,仍能保持极高的成功率。其次,该系统能够提供具有精细纹理的高保真照片级效果,能够忠实地保留服装的纹理、材质属性及结构特征,并能有效避免常见的 AI 生成伪影(artifacts)。第三,除服装试穿外,我们的模型还支持跨 8 个时尚类别的灵活多图合成(最多支持 6 张参考图),并能对人物身份(identity)与背景进行协同控制。第四,为了克服商业化部署中的延迟瓶颈,我们的系统针对推理速度进行了深度优化,能够实现近乎实时的生成,从而提供无缝的用户体验。这些能力的实现得益于一套集成的系统设计,涵盖了端到端模型架构、可扩展的数据引擎、稳健的基础设施以及多阶段训练范式。广泛的评估和大规模的产品部署表明,Tstars-Tryon 1.0 实现了领先的综合性能。为了支持未来的研究,我们还发布了一个全面的基准测试(benchmark)。目前,该模型已在淘宝 App 上实现了工业级规模的部署,为数亿用户提供了数千万次的请求服务。
一句话总结
作者提出了 Tstars-Tryon 1.0,这是一个商业规模的虚拟试穿系统,利用多阶段训练范式和可扩展的数据引擎,在包括上装、裤装、裙装、连衣裙、外套、鞋履、包袋和帽子在内的八个时尚类别中,提供稳健、写实且接近实时的结果。
核心贡献
- 本文介绍了 Tstars-Tryon 1.0,这是一个商业规模的虚拟试穿系统,通过集成端到端架构、可扩展的数据引擎和多阶段训练范式,在极端姿态和运动模糊等具有挑战性的野外(in-the-wild)条件下实现了高成功率。
- 该工作提出了一个通用框架,能够利用多达六张参考图像在八个时尚类别(包括上装、鞋履和包袋)中进行灵活的多图像组合,同时保持写实的服装纹理,并对人物身份和背景进行协调控制。
- 该研究提供了一个高度优化的系统以实现接近实时的推理,并引入了一个全面的基准测试以支持未来发展,已在淘宝 App 上成功大规模部署,服务于数百万用户。
引言
虚拟试穿技术对于现代电子商务至关重要,但现有的学术模型往往无法满足真实商业部署的需求。目前的基准测试受限于简单的影棚背景、过于关注基础服装类别,以及依赖于无法反映实际用户提供的复杂、无约束照片的纯净平铺服装图像。作者介绍了 Tstars-Tryon 1.0,这是一个旨在处理包括配饰在内的八个时尚类别中极端姿态、多样化光照和多物品组合的商业规模系统。通过将可扩展的数据引擎与多阶段训练范式相结合,作者在高度写实的逼真度与大规模工业应用所需的接近实时的推理速度之间实现了稳健的平衡。
数据集
作者引入了 Tstars-VTON 基准测试,这是一个旨在按照商业级标准评估虚拟试穿模型的大规模数据集。
- 数据集构成与来源: 数据从互联网和专有电子商务领域收集。该基准测试由 1780 个精选的配对样本组成,涵盖 5 类服装(上装、连衣裙、外套、裤装和裙装)和 3 类配饰(鞋履、帽子和包袋)。这些类别进一步细分为 465 个细粒度子类别。
- 关键细节与多样性: 数据集旨在支持复杂的多物品场景,样本可以包含 1 到 6 个分层物品。它具有多样化的模特特征,包括 74.9% 女性和 25.1% 男性的性别分布,以及从儿童到老人的各种年龄组。为了增加难度,作者加入了复杂的姿态(29.6%)和复杂的野外背景(超过 40%)。
- 处理与元数据构建: 作者采用三阶段流水线进行构建:
- 收集: 一种混合检索策略,将自动化平台提取与基于多维标签系统引导的人工收集相结合。
- 精炼与标注: 数据经过两阶段的标签检索和精炼过程。元数据最初源自 SKU 元数据,通过基于 VLM 的流水线进行精炼,并通过人工验证最终确定,以确保在 11 个模型标签维度和 13 个服装标签维度上的准确性。
- 匿名化: 为确保隐私,所有模特肖像都经过换脸处理,根据肤色、性别和年龄将面部匹配到获得许可的替代面部。
- 配对与使用: 作者在试穿配对策略中使用结构化的分层逻辑。这确保了服装组合遵循真实的物理和语义规则,例如性别匹配和正确的服装分层。该基准测试支持单件服装和多件服装评估,包括一种完全不配对的设置,该设置将模型数据库和服装数据库解耦,以最大限度地提高组合多样性。
方法
作者为试穿模型采用了两阶段框架,包括训练阶段和推理阶段。训练阶段始于通用编辑任务的预训练,随后是渐进式分辨率连续训练,以提升模型处理高分辨率输出的能力。之后是高质量垂直领域监督微调,使用专门为服装领域策划的数据对模型进行优化。训练的最后阶段采用带有多种奖励信号的强化学习来进一步增强模型性能,最后通过少步数(few-step)和 CFG 蒸馏来提高推理效率和输出质量。 
推理阶段由用户提示词(prompt)启动,提示词通过提示词重写器处理以生成优化后的提示词。该优化后的提示词随后由文本编码器编码,并输入到一个统一的多图像编辑 DiT (Diffusion Transformer) 模型中,从而生成最终的输出图像。 
模型的训练过程由三阶段数据流水线支撑。阶段 1 侧重于数据收集,从互联网资源和电子商务平台收集原始数据。这些数据经过专家标注检索以及自动化与人工结合的过滤,生成大量服装、配饰以及模特数据。阶段 2 涉及数据过滤、精炼和匿名化。该阶段包括使用分层策略进行质量过滤,例如基于姿态和人体存在的模型领域策略,以及检查图像是否不完整或包含多主体的服装领域策略。使用 VLM 裁判和专家检查来验证数据。标签精炼确保了准确的属性标注,并应用包括面部库匹配和质量检查在内的隐私保护机制来保护用户数据。阶段 3 是试穿配对策略,根据配对策略将模特数据和服装数据进行配对,以生成多样且复杂的试穿基准测试,包括多服装和多层组合。 
实验
评估利用了 Tstars-VTON 基准测试,涵盖了单件服装和复杂多件服装场景,并结合学术基准和人类偏好研究来验证商业就绪度。结果表明,即使在极端姿态或光照条件下,该模型在保持身份一致性、背景保留和复杂服装纹理方面也表现出色。值得注意的是,该系统在多物品协调和跨领域应用(如为 3D 化身或动漫角色穿衣)中表现出卓越的稳定性,同时保持了比现有专有模型和开源模型显著更高的推理速度。
作者在综合基准测试中将 Tstars-Tryon 1.0 与各种开源和闭源模型进行了对比,证明了其在包括整体质量、身份一致性、服装保真度、背景保留以及物理和结构逻辑在内的多个维度上的卓越性能。结果显示,Tstars-Tryon 1.0 在所有评估类别中均获得了最高分,优于专门的学术模型和领先的专有系统,特别是在复杂的多件服装场景中。Tstars-Tryon 1.0 在所有评估指标中均取得了最高分,包括整体质量、身份一致性和服装保真度。该模型优于开源和闭源竞争对手,尤其是在复杂的多件服装试穿任务中。Tstars-Tryon 1.0 在维持物理和结构逻辑、保留身份以及处理背景细节方面表现出异常出色的性能。
作者对虚拟试穿基础模型 Tstars-Tryon 1.0 进行了全面评估,将其性能与最先进的学术和商业模型进行了比较。结果表明,Tstars-Tryon 1.0 在多个指标上实现了卓越或具有竞争力的性能,特别是在服装保真度和身份一致性方面,同时在复杂的多件服装场景中保持了高性能。该模型展示了强大的泛化能力,能够以高保真度和稳健性处理多样化的输入和复杂的指令。Tstars-Tryon 1.0 在关键指标上优于学术和专有模型,尤其是在服装保真度和身份一致性方面。该模型在复杂的多件服装场景中保持了高性能,展示了稳健性以及处理复杂分层和协调的能力。Tstars-Tryon 1.0 展现出强大的泛化能力,在有效管理多样化输入和复杂指令的同时,保留了身份和背景细节。
作者在不同服装数量下,使用人类评估指标将 Tstars-Tryon 1.0 与两个领先的专有模型 Nano Banana Pro 和 Seedream5 lite 进行了比较。结果显示,Tstars-Tryon 1.0 一贯优于竞争对手,尤其是在试穿任务复杂度增加时。在多件服装场景中,性能差距显著扩大,竞争对手的质量出现大幅下降,而 Tstars-Tryon 1.0 保持了高度的稳定性和保真度。在人类评估中,Tstars-Tryon 1.0 优于专有模型,在多件服装场景中具有显著优势。随着服装数量的增加,Tstars-Tryon 1.0 与竞争对手之间的性能差距进一步扩大,表明在复杂条件下具有更优的稳健性。Tstars-Tryon 1.0 在所有测试场景中都保持了高质量和一致性,而竞争对手的性能随复杂度的增加而明显下降。
作者对 Tstars-Tryon 1.0 进行了全面评估,证明了其在虚拟试穿任务中优于现有学术和商业模型的性能。该模型在单件服装和多件服装场景中均达到了最先进的结果,特别是在复杂的多物品生成以及在多样化条件下保持高保真度方面表现出色。结果显示,Tstars-Tryon 1.0 在关键指标上优于其他方法,表明其在处理具有挑战性的现实应用方面的有效性。Tstars-Tryon 1.0 在单件和多件服装试穿任务中均取得了最佳性能,优于专门的学术模型和领先的商业系统。该模型展示了卓越的稳健性和高保真渲染能力,即使在复杂的多件服装场景中也能保持身份、姿态和背景的一致性。Tstars-Tryon 1.0 展现出强大的泛化能力,尽管未在学术基准上进行训练,但在这些基准上仍表现出卓越性能,表明其能够有效处理未见的数据分布。
通过全面的基准测试和人类评估,Tstars-Tryon 1.0 与各种开源学术模型和领先的专有系统进行了对比评估。实验验证了该模型在单件和多件服装场景中保持身份一致性、服装保真度和结构逻辑的能力。研究结果表明,Tstars-Tryon 1.0 提供了卓越的稳健性和泛化能力,尤其是在任务复杂度增加时,而竞争模型在多物品协调方面表现出明显的性能下降。