HyperAIHyperAI

Command Palette

Search for a command to run...

Console
17 小时前

基于追踪的结构:视频生成中的结构保持性运动知识蒸馏

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

基于追踪的结构:视频生成中的结构保持性运动知识蒸馏

摘要

现实是刚性约束与可变形结构之间的动态平衡。对于视频生成模型而言,这意味着在生成运动时需同时保持结构的一致性与视觉保真度。尽管扩散模型取得了显著进展,但生成既真实又结构一致的运动,尤其是对人、动物等具有复杂关节和可变形特性的对象,仍面临巨大挑战。仅通过扩大训练数据规模,目前尚无法解决物理上不合理的运动过渡问题。现有方法通常依赖于带有噪声的运动表征进行条件控制,例如通过外部不完美的模型提取的光流或骨骼信息。为应对上述挑战,我们提出一种新算法,将自回归视频追踪模型(SAM2)中蕴含的结构保持运动先验,蒸馏至双向视频扩散模型(CogVideoX)中。基于该方法,我们训练出SAM2VideoX,其包含两项关键创新:(1)双向特征融合模块,能够从类似SAM2的递归模型中提取全局结构保持的运动先验;(2)局部Gram流损失(Local Gram Flow Loss),用于对齐局部特征之间的协同运动模式。在VBench基准测试及人类主观评估中,SAM2VideoX相较于现有基线模型展现出显著提升:在VBench上得分达95.51%,较REPA模型(92.91%)提升2.60%;FVD(Fréchet Video Distance)降低至360.57,分别较REPA和LoRA微调方法改善21.20%与22.46%;人类偏好评分高达71.4%,显著优于现有方法。相关项目主页详见:https://sam2videox.github.io/

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于追踪的结构:视频生成中的结构保持性运动知识蒸馏 | 论文 | HyperAI超神经