HyperAIHyperAI

Command Palette

Search for a command to run...

GIVT:生成式无限词汇变换器

Michael Tschannen Cian Eastwood Fabian Mentzer

摘要

我们提出了生成式无限词汇量变换器(Generative Infinite-Vocabulary Transformers, GIVT),该模型生成的是包含实数值的向量序列,而非传统方法中基于有限词汇表的离散标记(token)。为此,我们对仅解码器结构的变换器提出了两个出人意料的简单改进:1)在输入端,用输入向量的线性投影替代原有的有限词汇查找表;2)在输出端,将传统的逻辑值(logits)预测(通常映射为类别分布)替换为多元高斯混合模型(multivariate Gaussian mixture model)的参数预测。受图像生成范式 VQ-GAN 和 MaskGIT 的启发——这些方法利用变换器建模 VQ-VAE 的离散潜在序列——我们采用 GIVT 来建模 βββ-VAE 的未量化实值潜在序列。在类别条件图像生成任务中,GIVT 的性能优于 VQ-GAN 及其改进变体,也优于 MaskGIT,且达到了与近期潜在扩散模型相媲美的水平。此外,当将 GIVT 应用于基于 UViM 框架的 VAE 变体进行全景分割(panoptic segmentation)和深度估计任务时,也取得了优异的性能表现,展现了其在图像生成之外领域的强大泛化能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供