Command Palette
Search for a command to run...

摘要
在人物图像动画中,保持首帧身份一致性的同时实现精确的运动控制,是一个基础性挑战。当前主流的参考图像到视频(Reference-to-Video, R2V)范式中的图像到运动绑定(Image-to-Motion Binding)过程,忽视了现实应用中普遍存在的时空错位问题,导致身份漂移和视觉伪影等失败现象。为此,我们提出 SteadyDancer——一种基于图像到视频(Image-to-Video, I2V)范式的框架,首次实现了对首帧身份的稳健保持,并在动画生成中达成高度协调与连贯的效果。首先,我们提出一种条件协调机制(Condition-Reconciliation Mechanism),用于调和两种相互冲突的约束条件,从而在不牺牲图像保真度的前提下实现精准的运动控制。其次,我们设计了协同姿态调制模块(Synergistic Pose Modulation Modules),生成与参考图像高度兼容的自适应且一致的姿态表征。最后,我们采用一种分阶段解耦目标训练流程(Staged Decoupled-Objective Training Pipeline),分层优化模型在运动保真度、视觉质量与时间连贯性方面的表现。实验结果表明,SteadyDancer 在外观保真度与运动控制能力方面均达到当前最先进水平,同时相比同类方法显著降低了训练资源需求。