日期

8 个月前

大小

731.51 MB

许可证

Apache 2.0

GitHub

bytedance/DreamO

论文 URL

2504.16915

一、教程简介

DreamO 是由字节跳动联合北京大学深圳研究生院电子与计算机工程学院于 2025 年 5 月 12 日推出的统一图像定制化框架。该项目基于 DiT（Diffusion Transformer）架构，整合了多种图像生成任务，支持换装（IP）、换脸（ID）、风格迁移（Style）、多主体组合等复杂功能，通过单一模型实现多条件控制。相关论文成果为 DreamO: A Unified Framework for Image Customization 。

本教程采用资源为单卡 A6000 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

参数说明:

task：
1. ip： 自动移除输入图像的背景，保留物体/角色主体，适用于服饰、物品等场景。
2. id： 精准提取面部特征区域，支持身份特征迁移。基于优化的面部识别算法，可适配不同角度与光照条件的人像。
3. style： 需在提示词前添加「生成相同风格的图像」指令。系统将继承原始背景与视觉风格，实现构图要素的创意延展。
Width： 用于控制生成图片的宽。
Height： 用于控制生成图片的高。
Guidance： 它用于控制生成模型中条件输入（如文本或图像）对生成结果的影响程度。较高的指导值会让生成结果更加贴近输入条件，而较低的值会保留更多随机性。
Number of Steps： 表示模型的迭代次数或推理过程中的步数, 代表模型用于生成结果的优化步数。更高的步数通常会生成更精细的结果，但可能增加计算时间。
Seed： 随机数种子，用于控制生成过程中的随机性。相同的 Seed 值可以生成相同的结果（前提是其他参数相同），这在结果复现中非常重要。

使用步骤

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Command Palette

DreamO：统一的图像定制框架

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DreamO：统一的图像定制框架

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

基于手势识别的 3D 圣诞树

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PixelReasoner-RL：像素级视觉推理模型

F5-E2 TTS 只需 3 秒克隆任何音色

LongCat-Image：双语文本驱动图像生成系统

FLUX.2-dev：图像生成与编辑模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DreamO：统一的图像定制框架

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

基于手势识别的 3D 圣诞树

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PixelReasoner-RL：像素级视觉推理模型

F5-E2 TTS 只需 3 秒克隆任何音色

LongCat-Image：双语文本驱动图像生成系统

FLUX.2-dev：图像生成与编辑模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

基于手势识别的 3D 圣诞树

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PixelReasoner-RL：像素级视觉推理模型

F5-E2 TTS 只需 3 秒克隆任何音色

LongCat-Image：双语文本驱动图像生成系统

FLUX.2-dev：图像生成与编辑模型

相关教程

LongCat-Video：美团开源的 AI 视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

基于手势识别的 3D 圣诞树

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PixelReasoner-RL：像素级视觉推理模型

F5-E2 TTS 只需 3 秒克隆任何音色

LongCat-Image：双语文本驱动图像生成系统

FLUX.2-dev：图像生成与编辑模型