Command Palette
Search for a command to run...
金字塔流匹配用于高效视频生成建模
金字塔流匹配用于高效视频生成建模
Abstract
视频生成需要对庞大的时空空间进行建模,这通常需要消耗大量的计算资源和数据。为降低复杂度,现有方法普遍采用级联架构,避免直接在全分辨率潜在空间中进行训练。尽管此类方法能够减少计算开销,但各子阶段的独立优化限制了知识共享,牺牲了模型的灵活性。本文提出一种统一的金字塔流匹配算法(Unified Pyramidal Flow Matching),将原始的去噪轨迹重新诠释为一系列金字塔层级,在仅最后一级以全分辨率运行的前提下,实现了更高效的视频生成建模。通过精心设计,不同金字塔层级之间的流信息得以相互关联,从而保持时间与空间上的连续性。此外,我们构建了基于时间金字塔的自回归视频生成机制,有效压缩了全分辨率历史信息。整个框架可实现端到端的联合优化,并仅需一个统一的扩散Transformer(Diffusion Transformer, DiT)进行参数化。大量实验表明,本方法可在20.7k个A100 GPU训练小时的预算内,生成高质量的5秒(最长可达10秒)768p分辨率、24帧/秒的视频。所有代码与模型均已开源,详见:https://pyramid-flow.github.io。
一句话总结
北京大学、快手科技和北京邮电大学的研究人员提出了一种统一的金字塔流匹配框架,将视频生成重新诠释为多阶段过程,通过分层流互联和自回归时间金字塔压缩,在仅使用20.7k A100 GPU小时的情况下,实现高达768p 24 FPS、持续10秒的高质量视频生成,同时通过单一扩散Transformer实现端到端训练并降低计算成本。
主要贡献
- 现有视频生成方法因在全分辨率下建模大尺度时空空间而面临高昂的计算成本,通常依赖级联架构分别优化多个阶段,导致效率低下且知识共享有限。
- 本文提出一种统一的金字塔流匹配框架,将生成过程重新诠释为一系列空间与时间金字塔阶段,仅在最终阶段以全分辨率运行,通过单一扩散Transformer实现高效联合优化。
- 该方法在768p 24 FPS下生成长达10秒的视频时达到当前开源方法的最先进质量,相比全序列扩散方法将训练token数减少超过85%,并在VBench和EvalCrafter基准上表现出色。
引言
基于扩散和自回归模型的视频生成在真实感和时长方面已取得显著成果,但因需建模大尺度时空空间而仍存在高昂的计算成本。以往方法通常依赖级联架构,分阶段生成视频——先在低分辨率下生成,再通过独立的超分辨率模型上采样。尽管这降低了单阶段计算量,但引入了模型训练不连续、知识共享受限和可扩展性差等问题。本文提出金字塔流匹配(Pyramidal Flow Matching),一种统一框架,将视频生成重新诠释为跨空间与时间金字塔的多尺度过程。通过在早期阶段压缩潜在表示并逐步解压,该方法显著减少训练期间的token数量——对于10秒视频,计算负载降低超过85%——同时保持高质量输出。其核心创新在于使用单一扩散Transformer,通过分段流匹配目标端到端训练,连接所有金字塔阶段,实现无需独立模型的同步生成与解压。该方法提升了训练效率,简化了实现流程,并支持可扩展的高分辨率视频合成。
数据集
- 训练数据集为开源图像与视频数据的混合语料库,整合了多个高质量、公开可用的数据源。
- 图像数据包括:
- 1100万张来自CC-12M的图像,经筛选确保高质量与多样性。
- 690万张来自SA-1B的非模糊图像,已过滤掉模糊内容。
- 440万张来自JourneyDB的高质量图像-文本对,为精心筛选的数据集。
- 1400万张公开可用的合成图像,用于增强真实世界数据。
- LAION-5B中一个高审美质量子集,共1100万张图像,基于审美评分筛选。
- 视频数据包括:
- 1000万条来自WebVid-10M的视频,为大规模网络爬取的视频-文本数据集。
- 100万条来自OpenVid-1M的近期发布开源视频数据集。
- 100万条高分辨率、无水印视频,主要来源于Open-Sora计划(PKU-Yuan实验室,2024)。
- 经后处理后,约有1000万条单镜头视频可用于训练,格式统一且经过质量过滤。
- 模型使用上述数据集的混合进行训练,训练划分依据原始数据集分布,并进行平衡调整。混合比例经优化,以确保在多样化视觉与时间模式下具备稳健性能。
- 数据通过3D变分自编码器(VAE)进行处理,下采样比率为8×8×8,同时压缩空间与时间维度。该VAE在WebVid-10M上从零开始训练,结构与MAGVIT-v2相似。
- 采用具有三个阶段的3D金字塔结构,以多分辨率表示视频数据。
- 为提升训练稳定性,对历史金字塔条件施加强度在[0, 1/3]范围内均匀采样的破坏性噪声,有助于缓解自回归生成中的退化问题。
- 模型采用基于SD3 Medium的20亿参数MM-DiT架构,空间维度使用正弦位置编码,时间维度采用1D旋转位置嵌入(RoPE),支持在可变视频长度下灵活训练。
方法
研究人员利用统一的金字塔流匹配框架,通过将去噪过程重新诠释为一系列空间金字塔阶段,解决视频生成中的计算挑战。该方法避免了在各分辨率下使用独立模型,实现知识共享与更高效的训练流程。其核心是一个空间金字塔,将生成过程分解为多个阶段,每个阶段逐步提升分辨率。如框架图所示,过程从低分辨率、含噪的潜在表示开始,依次经过多个阶段,仅最终阶段在全分辨率下运行。该设计显著降低计算成本,因多数阶段在低分辨率下完成。每个阶段内的流由连续分辨率间的分段插值定义,插值由缩放后的时间步参数化。研究人员进一步通过构建在不同噪声水平与分辨率间插值的概率路径,统一生成与解压的目标,使单一模型可同时处理两项任务。这种统一建模通过为每个阶段定义条件概率路径实现,端点以耦合方式采样,确保流轨迹为直线。流模型被训练为回归该条件向量场上的速度场,从而形成单一、端到端可训练的模型。

推理阶段需谨慎处理连续金字塔阶段间的跳变点,以保证概率路径的连续性。研究人员提出一种重去噪(renoising)方案来解决此问题。过程从上采样前一低分辨率终点开始,结果为高斯分布。为匹配下一阶段的起始点分布,施加线性变换与修正噪声。重缩放系数确保分布均值一致,而修正噪声(权重由上采样函数决定)则匹配协方差矩阵。对于最近邻上采样,研究人员推导出特定的重去噪规则,包含一个重缩放因子和一个协方差矩阵设计用于降低每个块内的相关性。这确保了概率路径在各阶段间保持连续,实现平滑生成。

为进一步提升训练效率,研究人员引入用于自回归视频生成的时间金字塔设计。该设计通过使用压缩的低分辨率历史信息,减少全分辨率历史条件中的计算冗余。如图所示,在每个金字塔阶段,生成过程均基于逐步下采样的历史帧序列进行条件化。这显著减少了训练token数量,因大多数帧在最低分辨率下计算。该方法还采用兼容的位置编码方案,在空间金字塔中进行外推以保留细粒度细节,在时间金字塔中进行插值以确保历史条件的空间对齐。这使模型能高效学习长视频序列,同时保持高质量生成。

该框架的实际实现采用标准Transformer架构,具体为扩散Transformer(DiT)。研究人员采用全序列注意力机制,得益于金字塔表示带来的token数量减少,使其成为可能。分块因果注意力用于确保每个token仅能关注其前序帧,这对自回归生成至关重要。位置编码设计与金字塔结构兼容,在空间域进行外推,在时间域进行插值。模型采用三阶段训练流程:首先使用图像数据学习视觉依赖关系,随后进行低分辨率视频训练,最后进行高分辨率视频微调。该训练策略结合高效的金字塔设计,使模型能够大规模生成高质量视频。

实验
- 所提出的金字塔流匹配框架在视频生成训练中将计算与内存开销降低高达16^K,仅用20.7k A100 GPU小时即可训练出10秒、241帧的视频模型——远低于Open-Sora 1.2(需超过40k GPU小时,且帧数更少、质量更低)。
- 在VBench和EvalCrafter基准上,该模型在开源方法中达到最先进性能,质量与运动平滑度均超越参数量翻倍的CogVideoX-5B(VBench得分84.74 vs. 84.11),且在仅使用公开数据的情况下,优于Gen-3 Alpha的关键指标。
- 用户研究表明,其在美学质量、运动平滑度与语义对齐方面优于开源基线(如CogVideoX与Open-Sora),尤其得益于支持24 fps生成(基线为8 fps)。
- 消融实验验证了空间与时间金字塔的有效性:空间金字塔使FID收敛速度提升近三倍,时间金字塔则在全序列扩散无法收敛的情况下实现稳定、连贯的视频生成。
- 模型通过自回归推理展现出强大的图像到视频生成能力,可生成5秒768p视频,具备丰富的运动动态;即使仅使用数百万训练样本,也能生成高质量图像。
- 空间金字塔推理中的修正噪声与分块因果注意力对减少伪影、确保时间连贯性至关重要,消融实验显示,缺少二者将导致视觉质量与运动一致性显著下降。
- 尽管在长期主体一致性与非自回归生成方面存在局限,该方法仍实现了电影级视频生成,性能与商业模型相比具有竞争力,且训练成本仅为后者的极小部分。
研究人员采用金字塔流匹配框架实现高效视频生成,相比全序列扩散显著降低计算与内存需求。结果表明,其模型在公开数据集上训练,性能在VBench与EvalCrafter基准上具有竞争力,超越多个开源模型,并接近Gen-3 Alpha与Kling等商业系统,尤其在运动平滑度与动态程度方面表现突出。

研究人员采用金字塔流匹配框架实现高效视频生成,相比全序列扩散显著降低计算与内存需求。结果表明,其方法在视觉质量与运动平滑度等关键指标上优于多个开源与商业模型,使用公开数据与较小计算预算,性能可与在更大专有数据集上训练的模型相媲美。

研究人员采用金字塔流匹配框架实现高效视频生成,相比全序列扩散显著降低计算与内存需求。结果表明,其模型在公开数据集上训练,于运动质量与视觉保真度等关键指标上超越多个开源与商业基线,性能可与在更大专有数据上训练的模型比肩。

研究人员采用金字塔流匹配框架实现高效视频生成,相比全序列扩散显著降低计算与内存需求。结果表明,其方法在VBench基准上优于多个开源与商业模型,获得更高质量得分(84.74)与更优运动平滑度,优于Gen-3 Alpha,且仅使用公开数据与更小计算预算。

研究人员通过用户研究将模型与多个基线(包括Open-Sora、CogVideoX与Kling)在美学质量、运动平滑度与语义对齐方面进行对比。结果表明,其模型在运动平滑度方面显著优于开源模型如Open-Sora与CogVideoX-2B,得益于金字塔流匹配带来的效率提升,支持更高帧率。其性能在运动质量与视觉美学方面也与商业模型Kling和Gen-3 Alpha相当。