2 个月前

摘要

现实是刚性约束与可变形结构之间的动态平衡。对于视频生成模型而言，这意味着在生成运动时需同时保持结构的一致性与视觉保真度。尽管扩散模型取得了显著进展，但生成既真实又结构一致的运动，尤其是对人、动物等具有复杂关节和可变形特性的对象，仍面临巨大挑战。仅通过扩大训练数据规模，目前尚无法解决物理上不合理的运动过渡问题。现有方法通常依赖于带有噪声的运动表征进行条件控制，例如通过外部不完美的模型提取的光流或骨骼信息。为应对上述挑战，我们提出一种新算法，将自回归视频追踪模型（SAM2）中蕴含的结构保持运动先验，蒸馏至双向视频扩散模型（CogVideoX）中。基于该方法，我们训练出SAM2VideoX，其包含两项关键创新：（1）双向特征融合模块，能够从类似SAM2的递归模型中提取全局结构保持的运动先验；（2）局部Gram流损失（Local Gram Flow Loss），用于对齐局部特征之间的协同运动模式。在VBench基准测试及人类主观评估中，SAM2VideoX相较于现有基线模型展现出显著提升：在VBench上得分达95.51%，较REPA模型（92.91%）提升2.60%；FVD（Fréchet Video Distance）降低至360.57，分别较REPA和LoRA微调方法改善21.20%与22.46%；人类偏好评分高达71.4%，显著优于现有方法。相关项目主页详见：https://sam2videox.github.io/。

源 PDF