6 个月前

摘要

在图像量化领域，以VQGAN为代表的模型将图像编码为从预定义大小的码本（codebook）中选取的离散标记（tokens）。近年来，随着LLAMA 3等模型的进展，研究发现显著扩大码本规模能够显著提升模型性能。然而，VQGAN及其衍生模型（如VQGAN-FC，即因子化码本，以及VQGAN-EMA）在扩展码本规模和提升码本利用率方面仍面临诸多挑战。例如，VQGAN-FC受限于最大码本规模为16,384，且在ImageNet数据集上的平均码本利用率通常低于12%。针对这一问题，本文提出一种新型图像量化模型——VQGAN-LC（Large Codebook），将码本规模扩展至100,000，并实现了超过99%的码本利用率。与以往方法逐个优化码本条目不同，我们的方法首先利用预训练视觉编码器提取100,000个特征作为初始码本，随后通过训练一个投影器（projector），使整个码本在分布上与编码器的特征分布对齐。实验结果表明，VQGAN-LC在多项任务中均显著优于现有方法，涵盖图像重建、图像分类、基于GPT的自回归图像生成，以及基于扩散模型和流模型的图像生成任务。相关代码与模型已开源，地址为：https://github.com/zh460045050/VQGAN-LC。

源 PDF