日期

8 个月前

大小

1.88 GB

标签

图像生成

文生图

许可证

MIT

GitHub

yifan123/flow_grpo

论文 URL

2505.05470

一、教程简介

Flow-GRPO 是由香港中文大学多媒体实验室、清华大学以及快手可灵团队于 2025 年 5 月 13 日推出的流匹配模型。该模型开创性融合在线强化学习框架与流匹配理论，在 GenEval 2025 基准测试中取得突破性进展：SD 3.5 Medium 模型组合式生成准确率由基准值 63% 跃升至 95%，生成质量评估指标首次超越 GPT-4o 。相关论文成果为 Flow-GRPO: Training Flow Matching Models via Online RL 。

本教程采用资源为单卡 RTX 4090，图像生成提示词仅支持英文。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

使用步骤

参数说明:

LoRA Model:
1. None： 基础模型原生调用，未引入优化策略。
2. GenEval： 六维评估体系构建，支持复杂场景生成验证。
3. Text Rendering： 精准文本视觉化，实现图文内容精确映射。
4. Human Preference Alignment： 审美偏好量化对齐，集成 PickScore 评估框架
Starting Seed： 随机数种子，用于控制生成过程中的随机性。相同的 Seed 值可以生成相同的结果（前提是其他参数相同），这在结果复现中非常重要。
Width： 用于控制生成图片的宽。
Height： 用于控制生成图片的高。
Guidance scale： 它用于控制生成模型中条件输入（如文本或图像）对生成结果的影响程度。较高的指导值会让生成结果更加贴近输入条件，而较低的值会保留更多随机性。
Number of inference Steps： 表示模型的迭代次数或推理过程中的步数, 代表模型用于生成结果的优化步数。更高的步数通常会生成更精细的结果，但可能增加计算时间。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 xxxjjjyyy1 对本教程的部署。本项目引用信息如下：

@misc{liu2025flowgrpo,
      title={Flow-GRPO: Training Flow Matching Models via Online RL}, 
      author={Jie Liu and Gongye Liu and Jiajun Liang and Yangguang Li and Jiaheng Liu and Xintao Wang and Pengfei Wan and Di Zhang and Wanli Ouyang},
      year={2025},
      eprint={2505.05470},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.05470}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

1.88 GB

标签

图像生成

文生图

许可证

MIT

GitHub

yifan123/flow_grpo

论文 URL

2505.05470

一、教程简介

本教程采用资源为单卡 RTX 4090，图像生成提示词仅支持英文。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

使用步骤

参数说明:

LoRA Model:
1. None： 基础模型原生调用，未引入优化策略。
2. GenEval： 六维评估体系构建，支持复杂场景生成验证。
3. Text Rendering： 精准文本视觉化，实现图文内容精确映射。
4. Human Preference Alignment： 审美偏好量化对齐，集成 PickScore 评估框架
Starting Seed： 随机数种子，用于控制生成过程中的随机性。相同的 Seed 值可以生成相同的结果（前提是其他参数相同），这在结果复现中非常重要。
Width： 用于控制生成图片的宽。
Height： 用于控制生成图片的高。
Guidance scale： 它用于控制生成模型中条件输入（如文本或图像）对生成结果的影响程度。较高的指导值会让生成结果更加贴近输入条件，而较低的值会保留更多随机性。
Number of inference Steps： 表示模型的迭代次数或推理过程中的步数, 代表模型用于生成结果的优化步数。更高的步数通常会生成更精细的结果，但可能增加计算时间。

四、交流探讨

引用信息

感谢 Github 用户 xxxjjjyyy1 对本教程的部署。本项目引用信息如下：

@misc{liu2025flowgrpo,
      title={Flow-GRPO: Training Flow Matching Models via Online RL}, 
      author={Jie Liu and Gongye Liu and Jiajun Liang and Yangguang Li and Jiaheng Liu and Xintao Wang and Pengfei Wan and Di Zhang and Wanli Ouyang},
      year={2025},
      eprint={2505.05470},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.05470}, 
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

Open-AutoGLM：手机端智能助理

2 个月前

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

3 个月前

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

PaddleOCR-VL：多模态文档解析

3 个月前

ROCKET-2：3D 游戏零样本迁移

3 个月前

DiagGym 诊断智能体

16 天前

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Flow-GRPO 流匹配文生图模型 Demo

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Flow-GRPO 流匹配文生图模型 Demo

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Open-AutoGLM：手机端智能助理

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

F5-E2 TTS 只需 3 秒克隆任何音色

PaddleOCR-VL：多模态文档解析

ROCKET-2：3D 游戏零样本迁移

DiagGym 诊断智能体

Depth-Anything-3：从任何视角恢复视觉空间

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Flow-GRPO 流匹配文生图模型 Demo

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Open-AutoGLM：手机端智能助理

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

F5-E2 TTS 只需 3 秒克隆任何音色

PaddleOCR-VL：多模态文档解析

ROCKET-2：3D 游戏零样本迁移

DiagGym 诊断智能体

Depth-Anything-3：从任何视角恢复视觉空间

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Open-AutoGLM：手机端智能助理

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

F5-E2 TTS 只需 3 秒克隆任何音色

PaddleOCR-VL：多模态文档解析

ROCKET-2：3D 游戏零样本迁移

DiagGym 诊断智能体

Depth-Anything-3：从任何视角恢复视觉空间

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Open-AutoGLM：手机端智能助理

MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

F5-E2 TTS 只需 3 秒克隆任何音色

PaddleOCR-VL：多模态文档解析

ROCKET-2：3D 游戏零样本迁移

DiagGym 诊断智能体

Depth-Anything-3：从任何视角恢复视觉空间