⚡️Pyramid Flow⚡️：基于流匹配的训练高效自回归视频生成模型

一、教程简介

Pyramid Flow 是由快手、北京大学和北京邮电大学联合组建的研究团队于 2024 年推出的开源超高清视频生成模型，相关论文成果为「Pyramidal Flow Matching for Efficient Video Generative Modeling」。这个模型能够根据文本描述生成最长 10 秒、分辨率高达 1280×768 、帧率 24fps 的高质量视频。 Pyramid Flow 的核心技术是金字塔流匹配算法，这种算法将视频生成过程分解为多个不同分辨率的阶段，从而提高生成效率和质量

该教程基于流匹配的训练高效的自回归视频生成方法，通过仅在开源数据集上进行训练，它可以以 768p 分辨率和 24 FPS 生成高质量的 10 秒视频，并自然支持图像到视频的生成。该教程支持如下模型和功能：

两个模型检查点：

768p：支持以 24FPS 生成长达 10 秒的视频
384p ：支持以 24FPS 生成 5 秒视频

两个功能：

文生视频（text_to_video）
图像生成视频（image_to_video）

二、运行步骤

启动容器后点击 API 地址即可进入 Web 界面

1. 文生视频（text_to_video）

选择 Text-to-Video 功能，按如下要求输入提示词和相关设置。

prompt：文本提示题，用作对视频生成的提示引导，注意不能超过 128 字。
Duration：生成视频的长度，Duration=16: 5s, temp=31: 10s 。
guidance_scale：控制视觉质量。我们建议在文本转视频生成过程中对 768p 检查点使用 [7, 9] 内的指导，对 384p 检查点使用 7 内的指导。
video_guidance_scale：控制运动。较大的值会增加动态程度并减轻自回归生成退化，而较小的值会使视频稳定。对于 10 秒视频生成，我们建议使用 7 级指导尺度和 5 级视频指导尺度。经过测试，如使用 768p 检查点（较大模型）生成 5s 视频需要 4min 左右，384p 模型（较小模型）生成 5s 视频需要 2min 左右。

2. 图像生成视频（image_to_video）

选择 Image_to_Video 功能，按如下要求输入提示词和相关设置。

input_image: 上传原始图像
prompt：文本提示题，用作对视频生成的提示引导，注意不能超过 128 字。
Duration：生成视频的长度，Duration=16: 5s, temp=31: 10s 。
video_guidance_scale：控制运动。较大的值会增加动态程度并减轻自回归生成退化，而较小的值会使视频稳定。对于 10 秒视频生成，我们建议使用 7 级指导尺度和 5 级视频指导尺度。经过测试，如使用 768p 检查点（较大模型）生成 5s 视频需要 3min 左右，384p 模型（较小模型）生成 5s 视频需要 2min 左右。

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓