Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

摘要
现实是刚性约束与可变形结构之间的动态平衡。对于视频生成模型而言,这意味着在生成运动时需同时保持结构的一致性与视觉保真度。尽管扩散模型取得了显著进展,但生成既真实又结构一致的运动,尤其是对人、动物等具有复杂关节和可变形特性的对象,仍面临巨大挑战。仅通过扩大训练数据规模,目前尚无法解决物理上不合理的运动过渡问题。现有方法通常依赖于带有噪声的运动表征进行条件控制,例如通过外部不完美的模型提取的光流或骨骼信息。为应对上述挑战,我们提出一种新算法,将自回归视频追踪模型(SAM2)中蕴含的结构保持运动先验,蒸馏至双向视频扩散模型(CogVideoX)中。基于该方法,我们训练出SAM2VideoX,其包含两项关键创新:(1)双向特征融合模块,能够从类似SAM2的递归模型中提取全局结构保持的运动先验;(2)局部Gram流损失(Local Gram Flow Loss),用于对齐局部特征之间的协同运动模式。在VBench基准测试及人类主观评估中,SAM2VideoX相较于现有基线模型展现出显著提升:在VBench上得分达95.51%,较REPA模型(92.91%)提升2.60%;FVD(Fréchet Video Distance)降低至360.57,分别较REPA和LoRA微调方法改善21.20%与22.46%;人类偏好评分高达71.4%,显著优于现有方法。相关项目主页详见:https://sam2videox.github.io/。