11 天前

一张图像对于重建与生成而言,价值相当于32个Token

Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
一张图像对于重建与生成而言,价值相当于32个Token
摘要

生成模型的最新进展凸显了图像分词(image tokenization)在高效合成高分辨率图像中的关键作用。分词技术通过将图像转换为潜在表示(latent representations),相较于直接处理像素,显著降低了计算负担,同时提升了生成过程的有效性与效率。以往的方法(如VQGAN)通常采用固定下采样率的二维潜在网格(2D latent grids),然而这类二维分词方式难以有效处理图像中固有的冗余信息——相邻区域往往具有高度相似性。为解决这一问题,本文提出一种基于Transformer的一维分词器(Transformer-based 1-Dimensional Tokenizer, TiTok),该方法将图像转化为一维潜在序列。TiTok能够生成更为紧凑的潜在表示,在效率与表达能力上均显著优于传统技术。例如,对于一张256×256×3的图像,TiTok仅需32个离散令牌(tokens),相较以往方法(如VQGAN通常生成256或1024个tokens)实现了大幅压缩。尽管表示极为紧凑,TiTok在性能上仍可与当前最先进方法相媲美。具体而言,在ImageNet 256×256基准测试中,采用相同生成框架时,TiTok取得1.97的gFID得分,较MaskGIT基线显著提升4.21分。当面对更高分辨率图像时,TiTok的优势更为突出:在ImageNet 512×512基准上,TiTok不仅超越当前最先进的扩散模型DiT-XL/2(gFID 2.74 vs. 3.04),还将图像令牌数量减少64倍,使生成速度提升410倍。我们表现最优的变体甚至可将gFID进一步降低至2.13(相比DiT-XL/2的3.04),同时仍能以74倍于DiT-XL/2的速度生成高质量图像样本。

一张图像对于重建与生成而言,价值相当于32个Token | 最新论文 | HyperAI超神经