Command Palette

Search for a command to run...

13 天前

Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成

Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成

摘要

基于扩散模型的视频生成技术能够生成高度逼真的视频,但现有的图像或文本条件控制方法难以实现精确的运动控制。以往针对运动条件生成的方法通常需要针对特定模型进行微调,这不仅计算成本高昂,而且限制性强。为此,我们提出Time-to-Move(TTM),一种无需训练、即插即用的框架,用于在图像到视频(I2V)扩散模型中实现运动与外观的联合控制。我们的核心思想是利用通过用户友好操作(如剪切拖拽或基于深度的重投影)获得的粗略参考动画。受SDEdit在图像编辑中使用粗略布局提示的启发,我们将这些粗略动画视为粗略的运动提示,并将其机制拓展至视频生成领域。通过图像条件保持外观一致性,我们引入了双时钟去噪(dual-clock denoising)策略——一种基于区域的去噪方法,在指定运动的区域中强制强对齐,而在其他区域则保留灵活性,从而在忠实于用户意图与保持自然动态之间取得平衡。该方法对采样过程进行了轻量级修改,无需额外训练或运行时开销,且可适配任意主干网络。在物体运动与相机运动基准测试中的大量实验表明,TTM在真实感和运动控制方面达到或超越了现有基于训练的基线方法。此外,TTM还具备一项独特能力:通过像素级条件控制实现精确的外观调控,突破了仅依赖文本提示的局限。更多视频示例与代码请访问项目主页:https://time-to-move.github.io/

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供