Command Palette
Search for a command to run...
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 技术报告
摘要
我们推出了 Qwen-Image-2.0,这是一款具备全能能力的图像生成基础模型,在一个统一的框架内实现了高保真生成与精确图像编辑。尽管近期取得了显著进展,现有模型在超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循以及高效部署等方面仍面临挑战,尤其在文本密集且构图复杂的场景中表现更为明显。为应对这些挑战,Qwen-Image-2.0 将 Qwen3-VL 作为条件编码器,并结合多模态扩散 Transformer 进行联合的条件-目标建模,同时辅以大规模数据策展和定制化的多阶段训练流程。这种架构使得模型在保持灵活生成与编辑能力的同时,具备了强大的多模态理解能力。该模型支持多达 1K tokens 的指令输入,能够生成包含丰富文本的内容,如幻灯片、海报、信息图及漫画等,并显著提升了多语言文本的保真度和排版质量。此外,它在照片级真实感生成方面进行了增强,提供了更丰富的细节、更逼真的纹理以及协调一致的光影效果,并能以更可靠的性能遵循复杂提示词,适应多样化的风格需求。大量人工评估结果显示,Qwen-Image-2.0 在生成与编辑任务上的表现均大幅优于之前的 Qwen-Image 系列模型,标志着我们在构建更通用、更可靠且更具实用价值图像生成基础模型方面迈出了重要一步。
一句话总结
Qwen 团队推出 Qwen-Image-2.0,这是一款统一的基础模型,将 Qwen3-VL 作为条件编码器与多模态扩散 Transformer 相结合,能够同时执行高保真图像生成与精准编辑。该模型支持长达 1K tokens 的超长多语言文本渲染、高分辨率照片级写实风格以及强大的提示词遵循能力。广泛的真人评估表明,其在视觉质量、编辑能力和实际可用性方面均较 prior Qwen-Image 模型有显著提升。
核心贡献
- 推出 Qwen-Image-2.0 作为统一基础模型,在单一框架内集成高保真图像生成与基于指令的编辑功能。该架构将 Qwen3-VL 条件编码器与多模态扩散 Transformer 主干网络相结合,实现条件与目标的联合建模,并辅以全面的数据筛选与定制化的多阶段训练流程。
- 该模型支持直接渲染长达 1K tokens 的超长文本指令,并显著提升多语言排版能力与高分辨率照片级写实效果。此能力可生成更丰富的局部细节、逼真纹理与连贯光照,同时大幅减少概念遗漏与幻觉内容。
- 广泛的真人评估表明,该模型在生成与编辑任务上均较 prior Qwen-Image 系列模型取得显著进步。LMArena 基准测试结果进一步验证了其在照片级写实与肖像生成能力上的重大突破。
引言
现代图像生成与编辑工具对专业创意工作流至关重要,但实际应用要求无缝处理复杂文本、照片级细节与精准的指令遵循能力。先前基础模型通常在美学合成方面表现优异,但在超长文本渲染、多语言排版与高分辨率保真度上存在不足,且生成与编辑通常需要独立流程。本文引入 Qwen-Image-2.0,这是一款将两项能力整合至单一框架的统一基础模型。通过将 Qwen3-VL 条件编码器与多模态扩散 Transformer 相结合,该模型可处理长达 1K tokens 的提示词,提供稳健的多语言排版能力,并在多样化创意任务中保持一致的照片级写实风格与风格连贯性。
数据集
-
数据集构成与来源
- 研究团队构建了一个面向统一文本到图像生成与基于指令图像编辑的大规模流水线,以广泛的领域覆盖、高质量的指令以及可靠的源-目标一致性为指导原则。
- 生成子集结合涵盖真实摄影、平面设计、艺术内容与合成图像的图文对,包括肖像、风景、物体、长尾概念以及幻灯片和海报等对布局敏感的材料。
- 编辑子集采用指令条件数据,分为单图像与多图像类别,涵盖属性修改、背景替换、风格迁移、文本编辑、修复、基于参考的生成、主体一致性以及组合融合。
-
关键子集细节与筛选规则
- 未公开确切的数据集规模,但生成数据需经过八个顺序筛选步骤:损坏文件移除、256 乘 256 分辨率验证、去重、NSFW 筛选、方向校正、基于熵的质量检查、CLIP 对齐评分以及 token 长度限制。
- 编辑数据经过筛选与组合以与生成流水线保持一致,其中单图像任务侧重于外观与结构操作,而多图像任务强调参考一致性与跨图像转换。
- 合成数据在后期阶段引入以提升更高分辨率下的多样性,所有子集均通过渐进式分布筛选持续优化。
-
训练使用与数据混合
- 采用六阶段多分辨率训练策略,从 256p 逐步扩展至 2048p,同时扩充数据集构成。
- 第二阶段合并筛选后的生成与编辑数据集,用于统一的低分辨率预训练。
- 第三阶段引入 512p 分辨率的合成数据以增强多样性,随后在第四阶段扩展至 512p 与 1024p 的混合训练。
- 第五阶段纳入 2048p 样本并采用专用分辨率筛选,第六阶段应用更严格的分布筛选进行监督微调,以对齐高分辨率的人类偏好。
-
处理与元数据构建
- 分辨率扩展驱动整个流水线,各阶段筛选器在更高分辨率训练前验证空间需求、图像保真度、美学质量与压缩伪影。
- 文本元数据受 token 长度限制约束,图文对齐通过 CLIP 相似度评分强制执行。
- 应用方向校正处理方向正确的图像,并在各阶段复用筛选算子,采用渐进式更严格的阈值以在整个迭代开发过程中维持数据质量。
方法
Qwen-Image-2.0 框架基于统一架构构建,专为高保真文本到图像(T2I)与文本到图像编辑(TI2I)生成而设计,采用深度融合多模态理解、潜在扩散与针对性优化的紧密流水线。整体系统如图所示,包含三个核心组件:多模态大语言模型(MLLM)、变分自编码器(VAE)与多模态扩散 Transformer(MMDiT)。MLLM 实例化为 Qwen3-VL,作为条件编码器处理文本与视觉输入以提取模态感知表示。对于图像输入,视觉表示由 VAE 编码器提取的潜在表示替代,该编码器将输入图像压缩至低维潜在空间。通过拼接潜在表示与文本嵌入形成的多模态序列,随后由 MMDiT 处理,MMDiT 在潜在空间中基于多模态表示执行核心去噪过程。 
如图所示,MMDiT 架构采用共享 Transformer 主干网络对文本与视觉模态进行联合建模。文本与图像 token 的空间与序列信息均通过 MSRoPE(多尺度旋转位置编码)机制进行编码,确保对空间与序列数据的统一处理。针对模型输出的调制,采用纯乘法公式,其中输出表示 h′ 计算为 h′=αh,α 为标量调制参数。为解决联合图文训练中激活值幅度过大导致神经元过早饱和的问题,模型在 MLP 层中引入 SwiGLU(门控线性单元)激活函数。该非线性变换定义为 h=Φ1(x)⊗σ(Φ2(x)),其中 Φ1(⋅) 与 Φ2(⋅) 为线性投影函数,σ(⋅) 为 SiLU 激活函数,⊗ 表示逐元素乘法,从而增强模型的表达能力与训练稳定性。 
VAE 组件专为高压缩图像合成设计,采用 16× 压缩比以加速扩散训练。为缓解压缩、重建保真度与可扩散性之间的固有权衡,模型采用带有非参数快捷连接的残差自编码器架构,以保留细粒度空间细节。潜在维度增加至 64 通道,形成 f16c64 配置,在更高压缩比下保持与标准 f8c16 基线相同的总通道瓶颈,从而实现高保真重建。为进一步提升重建质量,特别是在文本密集场景中,VAE 在包含真实文档以及字母与表意文字合成段落的大规模内部文本丰富图像语料库上进行训练。为增强潜在空间的可扩散性,VAE 采用重建损失、感知损失与语义对齐损失的组合进行优化。受 VA-VAE 启发的语义对齐损失将学习到的潜在空间与跨领域的语义表示对齐,其在训练过程中的动态应用(早期较强,后期放宽)有助于建立可扩散的潜在空间,同时平衡重建保真度。 
为提升复杂图像生成任务的质量,模型引入提示词增强器(Prompt Enhancer, PE)模块。该重写模块将不同具体程度的用户查询转换为结构化、细节丰富的提示词,使下游生成器能更好地捕捉预期的视觉设计。PE 采用两阶段流程进行训练:监督微调(SFT)后接强化学习(RL)。在 SFT 阶段,模型通过逆向工程流水线构建的数据集学习提示词增强能力,该流水线将细粒度标注降级为多样化、口语化的提示词,反向推理链作为训练监督。这确保模型学习推断缺失的视觉细节。RL 阶段进一步利用基于 GRPO 的框架,将重写提示词与下游图像生成质量对齐,奖励来源于基于 MLLM 的视觉一致性、美学质量与基于规则的文本约束。端到端训练使 PE 模块扎根于文本监督与下游视觉反馈,生成更忠实且表现力更强的提示词。 
为进行模型优化,采用闭环数据飞轮系统持续优化图像生成与编辑模型。该系统如图所示,分为三个阶段:多源信号收集、案例路由与针对性优化、模型更新。第一阶段,系统通过标准化模型评估、针对性坏例挖掘与用户反馈收集信号。第二阶段,故障案例根据错误归因自动路由至三个不同的优化轨道:强化学习问题进入 RL 轨道,知识缺失进入预训练轨道,提示词构建问题进入提示词工程轨道。预训练轨道使用向量检索引擎诊断数据稀缺性,并检索多样化的文本提示词与指令-图像对进行数据增强。提示词工程轨道通过优化的提示词增强器细化输入。最终阶段,聚合策略与更新后的数据集用于启动下一轮训练,形成自我强化的优化循环。
实验
通过在 LMArena 上进行盲测用户偏好排名以及与领先基线进行广泛的定性对比,实验验证了该模型在文本到图像生成与基于指令编辑任务中的能力。定性评估表明,该架构始终优于现有系统,能够准确渲染空间连贯的文本,在高分辨率下保留细粒度照片级写实细节,并执行复杂的多元素编辑,同时严格保持主体身份与场景一致性。这些发现共同证实,统一框架成功将先进的多模态理解与专业级视觉合成相结合,有效解决了先前在排版、多语言支持与组合逻辑方面的瓶颈。
下表对比了 Qwen-Image-2.0 与其他几款模型在 Imagenet_256x256 和 Text_256x256 两项任务上的性能,使用 PSNR 与 SSIM 指标。Qwen-Image-2.0 在两项任务上均取得具有竞争力的结果,在图像质量与文本渲染方面表现强劲,尤其在文本导向评估中。该模型在编码器与解码器参数之间保持平衡,有助于其有效性能。Qwen-Image-2.0 在图像与文本任务上均获得高 PSNR 与 SSIM 分数,表明其在两方面均表现优异。与其他最先进模型相比,该模型展现出具有竞争力的结果,尤其在文本渲染任务上。Qwen-Image-2.0 在编码器与解码器之间维持平衡的参数分布,这有助于其整体性能。
研究团队在衡量用户偏好的基准上评估 Qwen-Image-2.0 与先前版本及其他模型的表现,结果显示其在多个类别中均取得一致的性能提升。结果表明,Qwen-Image-2.0 在所有评估领域均优于其前身,其中文本渲染与照片级写实方面提升最为显著。Qwen-Image-2.0 在所有评估类别中均优于该模型的先前版本。与其他类别相比,该模型在文本渲染与照片级写实方面表现出最显著的改进。Qwen-Image-2.0 获得最高总分,表明其在用户偏好排名中表现卓越。
研究团队在基于用户偏好对文本到图像模型进行排名的基准上评估 Qwen-Image-2.0,证明其与领先专有模型相比具备竞争力。该模型获得高排名,表明其在图像生成任务中拥有强劲的用户偏好与整体质量。Qwen-Image-2.0 在用户偏好基准的领先文本到图像模型中排名靠前。该模型跻身顶级行列,在评估中优于多项知名专有模型。结果表明,与其他榜单模型相比,用户对 Qwen-Image-2.0 的偏好较强。
实验部分描述了一种面向图像生成模型的多阶段训练方法,涵盖预训练、持续预训练与监督微调。每个阶段逐步调整分辨率、数据构成与优化参数,模型在越来越高的分辨率下进行训练,并使用一致的优化器,同时逐步降低学习率。训练过程分三个阶段推进,分辨率递增而学习率递减。数据分布在训练阶段中从 T2I 与 TI2I 数据的 9:1 比例转变为 7:3。所有训练阶段均使用一致的优化器与权重衰减,学习率逐步递减。
实验通过图像与文本质量基准、与先前迭代及专有竞争对手的用户偏好排名,以及结构化的多阶段训练协议评估 Qwen-Image-2.0。这些评估验证了模型的生成能力、与领先专有系统的对比性能,以及渐进式训练方法的有效性。定性结果凸显了照片级写实与文本渲染方面的一致改进,证实结构化训练方法成功平衡了分辨率扩展与数据构成,从而取得顶级的用户偏好与整体竞争力。