HyperAI超神经

RealisDance-DiT:面向可控野外角色动画的简单而强大的基线模型

Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
发布日期: 4/23/2025
RealisDance-DiT:面向可控野外角色动画的简单而强大的基线模型
摘要

可控角色动画仍然是一个具有挑战性的问题,特别是在处理罕见姿势、风格化角色、角色与物体的互动、复杂光照和动态场景方面。为了解决这些问题,先前的研究主要集中在通过复杂的旁路网络注入姿态和外观指导,但往往难以推广到开放世界的场景中。本文提出了一种新的视角,即只要基础模型足够强大,通过灵活的微调策略进行简单的模型修改就能很大程度上解决上述挑战,从而朝着开放世界中的可控角色动画迈出一步。具体而言,我们引入了基于Wan-2.1视频基础模型的RealisDance-DiT。我们的充分分析表明,广泛采用的Reference Net设计对于大规模DiT模型来说并不理想。相反,我们证明了对基础模型架构进行最小修改就能获得一个令人惊讶的强大基线。此外,我们还提出了低噪声预热和“大批次小迭代”策略,在微调过程中加速模型收敛的同时最大限度地保留基础模型的先验知识。另外,我们引入了一个新的测试数据集,捕捉多样化的现实世界挑战,并补充现有的基准数据集(如TikTok数据集和UBC时尚视频数据集),以全面评估所提出的方法。大量的实验结果表明,RealisDance-DiT在性能上显著优于现有的方法。