Token-Shuffle:突破高分辨率图像生成的自回归模型新方法
在近年来,自回归(AR)模型在图像生成领域的应用逐渐增多,但其表现往往逊色于扩散模型。主要原因在于AR模型生成高分辨率图像时需要大量的图像token,这不仅限制了训练和推理的效率,还大大降低了图像分辨率的上限。针对这一问题,来自美国东北大学、Meta FAIR 等机构的研究者提出了一种名为Token-Shuffle的新方法,旨在通过减少Transformer中所需的图像token数量来提高AR模型处理高分辨率图像的能力。 Token-Shuffle的核心思想是在多模态大语言模型(MLLMs)中,低维视觉编码可以直接映射到高维语言词汇表,而视觉词汇表在某些维度上存在冗余。因此,研究团队引入了两个关键操作:token-shuffle和token-unshuffle。首先,token-shuffle操作通过沿通道维度合并空间上相邻的token来减少输入token的数量;其次,token-unshuffle操作在经过多个Transformer层后将这些被合并的token拆分,恢复原有的空间排列以便输出图像。整个过程与文本提示一起联合训练,无需额外的预训练文本编码器。 研究人员利用这种方法在大型模型上进行了实验,成功实现了2048x2048超高分辨率的图像生成,这是现有AR模型从未达到过的水平。此外,在生成式人工智能(GenAI-benchmark)基准测试中,使用Token-Shuffle的2.7亿参数模型在困难提示下的总体评分为0.77,显著超过了AR模型LlamaGen(0.59)和扩散模型LDM(0.62)。为了进一步验证模型的性能,团队还进行了大规模的人类评估,结果显示Token-Shuffle在文本对齐、视觉缺陷和视觉表现方面具有卓越的优势。 此次突破不仅展示了Token-Shuffle在高分辨率图像生成中的潜力,还为进一步优化自回归模型提供了新的思路。研究团队希望这个方法能够成为未来MLLMs中高效高分辨率图像生成的基础设计之一。 业内专家认为,Token-Shuffle的出现为自回归模型在图像生成领域的发展带来了新的机遇。该方法通过巧妙地利用视觉词汇表的冗余性,有效减少了模型对大量token的依赖,提升了生成质量和效率。与此同时,马旭等人所在的科研机构在全球范围内享有盛誉,多次在国际顶级会议上发表高质量论文,在多模态学习和图像生成领域积累了丰富的经验。