Pyramid Flow 一分钟生成超高清视频 Demo

⚡️Pyramid Flow⚡️:基于流匹配的训练高效自回归视频生成模型

一、教程简介

Pyramid Flow 是由快手、北京大学和北京邮电大学联合组建的研究团队于 2024 年推出的开源超高清视频生成模型,相关论文成果为「Pyramidal Flow Matching for Efficient Video Generative Modeling」。这个模型能够根据文本描述生成最长 10 秒、分辨率高达 1280×768 、帧率 24fps 的高质量视频。 Pyramid Flow 的核心技术是金字塔流匹配算法,这种算法将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量

该教程基于流匹配的训练高效的自回归视频生成方法,通过仅在开源数据集上进行训练,它可以以 768p 分辨率和 24 FPS 生成高质量的 10 秒视频,并自然支持图像到视频的生成。该教程支持如下模型和功能:

两个模型检查点:

  • 768p:支持以 24FPS 生成长达 10 秒的视频
  • 384p :支持以 24FPS 生成 5 秒视频

两个功能:

  • 文生视频(text_to_video)
  • 图像生成视频(image_to_video)

二、运行步骤

启动容器后点击 API 地址即可进入 Web 界面

1. 文生视频(text_to_video)

选择 Text-to-Video 功能,按如下要求输入提示词和相关设置。

  • prompt:文本提示题,用作对视频生成的提示引导,注意不能超过 128 字。
  • Duration:生成视频的长度,Duration=16: 5s, temp=31: 10s 。
  • guidance_scale:控制视觉质量。我们建议在文本转视频生成过程中对 768p 检查点使用 [7, 9] 内的指导,对 384p 检查点使用 7 内的指导。
  • video_guidance_scale:控制运动。较大的值会增加动态程度并减轻自回归生成退化,而较小的值会使视频稳定。对于 10 秒视频生成,我们建议使用 7 级指导尺度和 5 级视频指导尺度。 经过测试,如使用 768p 检查点(较大模型)生成 5s 视频需要 4min 左右,384p 模型(较小模型)生成 5s 视频需要 2min 左右。  
图 1 文生视频功能演示

2. 图像生成视频(image_to_video)

选择 Image_to_Video 功能,按如下要求输入提示词和相关设置。

  • input_image: 上传原始图像
  • prompt:文本提示题,用作对视频生成的提示引导,注意不能超过 128 字。
  • Duration:生成视频的长度,Duration=16: 5s, temp=31: 10s 。
  • video_guidance_scale:控制运动。较大的值会增加动态程度并减轻自回归生成退化,而较小的值会使视频稳定。对于 10 秒视频生成,我们建议使用 7 级指导尺度和 5 级视频指导尺度。 经过测试,如使用 768p 检查点(较大模型)生成 5s 视频需要 3min 左右,384p 模型(较小模型)生成 5s 视频需要 2min 左右。
图 2 图像生成视频演示

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓