HyperAI超神经

GigaTok:将视觉分词器扩展到30亿参数以实现自回归图像生成

Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
发布日期: 4/16/2025
GigaTok:将视觉分词器扩展到30亿参数以实现自回归图像生成
摘要

在自回归(AR)图像生成中,视觉分词器将图像压缩为紧凑的离散潜在标记,从而能够通过下一个标记预测高效地训练下游自回归模型以进行视觉生成。尽管扩大视觉分词器的规模可以提高图像重建质量,但通常会降低下游生成质量——这一挑战在现有文献中尚未得到充分解决。为了解决这一问题,我们引入了GigaTok,这是首个能够在扩大视觉分词器规模时同时提升图像重建、生成和表征学习的方法。我们发现潜在空间复杂性的不断增加是重建与生成困境的关键因素。为了缓解这一问题,我们提出了语义正则化方法,该方法将分词器特征与预训练视觉编码器中的语义一致特征对齐。这一约束在扩大规模时防止潜在空间复杂性过度增加,从而在重建和下游自回归生成方面均取得了一致的改进。基于语义正则化,我们探索了扩大分词器规模的三项关键实践:(1)使用一维分词器以提高可扩展性,(2)在扩展编码器和解码器时优先考虑解码器的扩展,以及(3)采用熵损失来稳定数十亿参数规模的分词器训练。通过扩展至30亿参数,GigaTok在图像重建、下游AR生成和下游AR表征质量方面均达到了最先进的性能。