
摘要
生成式变压器在计算机视觉领域中用于合成高保真和高分辨率图像,近年来受到了广泛关注。然而,目前最好的生成式变压器模型仍然将图像简单地视为一系列令牌,并按照光栅扫描顺序(即逐行)解码图像。我们发现这种策略既非最优也非高效。本文提出了一种使用双向变压器解码器的新图像合成范式,我们称之为MaskGIT。在训练过程中,MaskGIT通过关注所有方向上的令牌来学习预测随机遮蔽的令牌。在推理阶段,该模型首先同时生成图像的所有令牌,然后基于前一次生成的结果迭代地优化图像。实验结果表明,MaskGIT在ImageNet数据集上显著优于当前最先进的变压器模型,并且可以将自回归解码速度提升至最高64倍。此外,我们还展示了MaskGIT可以轻松扩展到各种图像编辑任务,如修复、外推和图像操作。