摘要

本文介绍了PixArt-Σ，一种能够直接生成4K分辨率图像的扩散Transformer模型（Diffusion Transformer, DiT）。PixArt-Σ相较于其前身PixArt-α实现了显著的技术进步，不仅在图像保真度上大幅提升，而且与文本提示的对齐能力也得到明显增强。PixArt-Σ的核心优势之一在于其卓越的训练效率。该模型基于PixArt-α的预训练基础，通过引入更高质量的数据，从“较弱”基线模型逐步演进为“更强”模型，这一过程我们称之为“弱到强训练”（weak-to-strong training）。PixArt-Σ的突破主要体现在两个方面：（1）高质量训练数据：模型采用了更优质图像数据，并搭配更为精确、详尽的图像描述文本；（2）高效的Token压缩机制：我们在DiT框架内提出了一种新型注意力模块，能够对键（keys）和值（values）进行高效压缩，显著提升了计算效率，从而支持超高清图像的生成。得益于上述改进，PixArt-Σ在保持极小模型规模（仅0.6B参数）的前提下，实现了优于现有文本到图像扩散模型的图像质量与用户提示遵循能力，显著低于当前主流模型如SDXL（2.6B参数）和SD Cascade（5.1B参数）。此外，PixArt-Σ具备生成4K分辨率图像的能力，可广泛应用于高分辨率海报、壁纸等内容创作，高效助力影视、游戏等产业中高质量视觉内容的生产。

源 PDF