2 个月前
图像变换器
Niki Parmar; Ashish Vaswani; Jakob Uszkoreit; Łukasz Kaiser; Noam Shazeer; Alexander Ku; Dustin Tran

摘要
图像生成已成功地被转化为自回归序列生成或转换问题。近期的研究表明,自注意力机制是建模文本序列的有效方法。在本研究中,我们将基于自注意力机制的Transformer模型架构推广到具有可计算似然性的图像生成序列建模中。通过将自注意力机制限制为仅关注局部邻域,我们显著增加了该模型在实际应用中可以处理的图像尺寸,尽管每层的感受野比典型的卷积神经网络大得多。虽然概念上较为简单,但我们的生成模型在ImageNet数据集上的图像生成性能显著优于当前的最先进水平,将ImageNet上的最佳已发表负对数似然从3.83提高到了3.77。我们还展示了在放大倍率较大的情况下使用我们模型架构的编码器-解码器配置进行图像超分辨率重建的结果。在一项人类评估研究中,我们发现由我们的超分辨率模型生成的图像欺骗人类观察者的频率是先前最先进技术的三倍。