
摘要
我们提出了生成式无限词汇量变换器(Generative Infinite-Vocabulary Transformers, GIVT),该模型生成的是包含实数值的向量序列,而非传统方法中基于有限词汇表的离散标记(token)。为此,我们对仅解码器结构的变换器提出了两个出人意料的简单改进:1)在输入端,用输入向量的线性投影替代原有的有限词汇查找表;2)在输出端,将传统的逻辑值(logits)预测(通常映射为类别分布)替换为多元高斯混合模型(multivariate Gaussian mixture model)的参数预测。受图像生成范式 VQ-GAN 和 MaskGIT 的启发——这些方法利用变换器建模 VQ-VAE 的离散潜在序列——我们采用 GIVT 来建模 $β$-VAE 的未量化实值潜在序列。在类别条件图像生成任务中,GIVT 的性能优于 VQ-GAN 及其改进变体,也优于 MaskGIT,且达到了与近期潜在扩散模型相媲美的水平。此外,当将 GIVT 应用于基于 UViM 框架的 VAE 变体进行全景分割(panoptic segmentation)和深度估计任务时,也取得了优异的性能表现,展现了其在图像生成之外领域的强大泛化能力。