Qwen-Image:具有高级文本渲染能力的图像模型
一、教程简介

Qwen-Image 是由阿里巴巴通义千问团队于 2025 年 8 月发布的高质量图片生成和编辑的大模型。该模型在文本渲染领域实现突破,支持中英双语多行段落级高保真输出,对复杂场景与毫米级细节均具备精准还原能力。 Qwen-Image 通过多任务协同训练范式,在图像编辑中实现像素级一致性,确保主体、光影、纹理全程零漂移。可一键生成写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等数十种风格,并支持风格迁移、元素增删、细节增强、文字重绘、姿态重设等全维度精细操作。相关论文成果为「Qwen-Image Technical Report」。
本教程采用资源为双卡 RTX A6000 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

参数说明
- Advanced Settings:
- Negative prompt:负面提示词,用于指定不希望出现在图像中的内容或风格。
- Seed:随机种子。
- Randomize seed:是否自动随机化种子。
- Image size (ratio):控制输出图像的分辨率比例。
- Guidance scale:引导比例,用于控制生成图像的质量。
- Number of inference steps:推理步数,用于控制生成图像的细节程度。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
本项目引用信息如下:
@article{qwen-image,
title={Qwen-Image Technical Report},
author={Qwen Team},
journal={arXiv preprint},
year={2025}
}