Command Palette
Search for a command to run...
Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

摘要
我们提出 LlamaGen,一个全新的图像生成模型家族,首次将大型语言模型中原始的“下一个词元预测”范式应用于视觉生成领域。该工作为一个关键问题提供了肯定回答:若进行充分扩展,仅依赖原始自回归架构(如 Llama)而未引入任何针对视觉信号的归纳偏置,是否仍能实现顶尖的图像生成性能?我们重新审视了图像分词器的设计空间、图像生成模型的可扩展性特性及其训练数据的质量。本次探索取得的成果包括:(1)一种下采样比例为 16 的图像分词器,在 ImageNet 基准上实现 0.94 的 rFID 重建质量与 97% 的码本使用率;(2)一系列参数量从 1.11 亿到 31 亿不等的类别条件图像生成模型,在 ImageNet 256×256 基准上达到 2.18 的 FID 指标,性能超越当前主流的扩散模型(如 LDM、DiT);(3)一个参数量为 7.75 亿的文本条件图像生成模型,通过在 LAION-COCO 与高美学质量图像数据集上的两阶段训练,展现出卓越的视觉质量与文本对齐能力;(4)我们验证了大型语言模型(LLM)服务框架在优化图像生成模型推理速度方面的有效性,实现了 326% 至 414% 的加速效果。我们已公开所有模型与代码,以推动视觉生成与多模态基础模型领域的开源社区发展。
代码仓库
foundationvision/llamagen
官方
pytorch
GitHub 中提及
0606zt/panollama
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-256x256 | LlamaGen | FID: 2.18 |