
摘要
我们提出 Wan-Move,一个简单且可扩展的框架,为视频生成模型引入了运动控制能力。现有运动可控方法通常存在控制粒度粗略、可扩展性有限的问题,导致生成结果难以满足实际应用需求。为缩小这一差距,Wan-Move 实现了高精度、高质量的运动控制。其核心思想是直接使原始条件特征具备运动感知能力,以指导视频生成。为此,我们首先通过密集点轨迹(dense point trajectories)表征物体运动,从而实现对场景的细粒度运动控制。随后,将这些轨迹投影至隐空间,并沿每条轨迹传播首帧特征,生成对齐的时空特征图,明确指示场景中各元素的运动方式。该特征图作为更新后的隐空间条件,可无缝集成至现成的图像到视频模型(如 Wan-I2V-14B)中,作为运动引导信号,无需任何架构修改。该方法省去了对辅助运动编码器的依赖,使基模型的微调过程具备良好的可扩展性。通过大规模训练,Wan-Move 能生成时长 5 秒、分辨率为 480p 的视频,其运动控制能力在用户研究中已达到商业级 Motion Brush(Kling 1.5 Pro)的水平。为支持全面评估,我们进一步设计了 MoveBench——一个精心构建的基准测试集,涵盖多样化的内容类别,并采用混合验证方式标注。MoveBench 具有更大的数据规模、更长的视频时长以及高质量的运动标注,显著提升了评估的严谨性与代表性。在 MoveBench 及公开数据集上的大量实验结果一致表明,Wan-Move 在运动质量方面表现卓越。相关代码、模型与基准数据均已公开,供社区使用。