11 天前

将VQGAN的码本大小扩展至100,000,且利用率达到99%

Lei Zhu, Fangyun Wei, Yanye Lu, Dong Chen
将VQGAN的码本大小扩展至100,000,且利用率达到99%
摘要

在图像量化领域,以VQGAN为代表的模型将图像编码为从预定义大小的码本(codebook)中选取的离散标记(tokens)。近年来,随着LLAMA 3等模型的进展,研究发现显著扩大码本规模能够显著提升模型性能。然而,VQGAN及其衍生模型(如VQGAN-FC,即因子化码本,以及VQGAN-EMA)在扩展码本规模和提升码本利用率方面仍面临诸多挑战。例如,VQGAN-FC受限于最大码本规模为16,384,且在ImageNet数据集上的平均码本利用率通常低于12%。针对这一问题,本文提出一种新型图像量化模型——VQGAN-LC(Large Codebook),将码本规模扩展至100,000,并实现了超过99%的码本利用率。与以往方法逐个优化码本条目不同,我们的方法首先利用预训练视觉编码器提取100,000个特征作为初始码本,随后通过训练一个投影器(projector),使整个码本在分布上与编码器的特征分布对齐。实验结果表明,VQGAN-LC在多项任务中均显著优于现有方法,涵盖图像重建、图像分类、基于GPT的自回归图像生成,以及基于扩散模型和流模型的图像生成任务。相关代码与模型已开源,地址为:https://github.com/zh460045050/VQGAN-LC。

将VQGAN的码本大小扩展至100,000,且利用率达到99% | 最新论文 | HyperAI超神经