Command Palette

Search for a command to run...

6 天前

用于视频生成的带有度量路径的均匀离散扩散

用于视频生成的带有度量路径的均匀离散扩散

摘要

连续空间视频生成技术发展迅速,而离散方法由于误差累积和长时序不一致性问题,进展相对滞后。在本工作中,我们重新审视离散生成建模,提出一种简单而强大的框架——基于度量路径的均匀离散扩散模型(Uniform discRete diffuSion with metric pAth, URSA),该框架有效弥合了离散方法与连续方法在可扩展视频生成方面的差距。URSA的核心思想是将视频生成任务建模为对离散时空标记(spatiotemporal tokens)的迭代全局优化过程。其关键设计包括:线性化度量路径(Linearized Metric Path)与与分辨率相关的采样步长偏移机制(Resolution-dependent Timestep Shifting)。这些设计使URSA能够高效扩展至高分辨率图像生成和长时长视频生成任务,同时显著减少推理步数。此外,我们引入了一种异步时间微调策略,使单一模型能够统一支持多种任务,包括视频插值与图像到视频生成。在多个具有挑战性的视频与图像生成基准测试中,实验结果表明,URSA在性能上持续优于现有离散方法,并达到与当前最先进的连续扩散模型相当的水平。代码与模型已开源,地址为:https://github.com/baaivision/URSA

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供