4 小时前

摘要

我们提出了 Vanast，这是一个统一的框架，能够直接根据单张人体图像、服装图像以及姿态引导视频（pose guidance video），生成完成服装迁移（garment-transferred）的人体动画视频。传统的两阶段 pipeline 将基于图像的虚拟试穿（virtual try-on）与姿态驱动的动画生成视为两个独立的流程，这往往会导致身份漂移（identity drift）、服装畸变以及前后视角不一致等问题。我们的模型通过在单一的统一步骤中执行整个流程，实现了连贯的合成效果，从而解决了这些问题。为了实现这一设定，我们构建了大规模的三元组监督（triplet supervision）。我们的数据生成 pipeline 包括：生成穿着与服装目录图像不同的、具有身份保持能力（identity-preserving）的人体图像；捕获完整的上装与下装三元组，以克服单件服装与姿态视频对的局限性；以及在无需服装目录图像的情况下，组装多样化的野外（in-the-wild）三元组。此外，我们为 video diffusion transformers 引入了一种双模块（Dual Module）架构，以稳定 training 过程，保留预训练的生成质量，并提高服装准确度、姿态遵循度（pose adherence）和身份保持能力，同时支持 zero-shot 服装插值（garment interpolation）。综上所述，这些贡献使 Vanast 能够针对广泛的服装类型，生成高保真且身份一致的动画。

源 PDF 查看代码