6 个月前

计算机视觉

Michael Tschannen Cian Eastwood Fabian Mentzer

摘要

我们提出了生成式无限词汇量变换器（Generative Infinite-Vocabulary Transformers, GIVT），该模型生成的是包含实数值的向量序列，而非传统方法中基于有限词汇表的离散标记（token）。为此，我们对仅解码器结构的变换器提出了两个出人意料的简单改进：1）在输入端，用输入向量的线性投影替代原有的有限词汇查找表；2）在输出端，将传统的逻辑值（logits）预测（通常映射为类别分布）替换为多元高斯混合模型（multivariate Gaussian mixture model）的参数预测。受图像生成范式 VQ-GAN 和 MaskGIT 的启发——这些方法利用变换器建模 VQ-VAE 的离散潜在序列——我们采用 GIVT 来建模 $β$ -VAE 的未量化实值潜在序列。在类别条件图像生成任务中，GIVT 的性能优于 VQ-GAN 及其改进变体，也优于 MaskGIT，且达到了与近期潜在扩散模型相媲美的水平。此外，当将 GIVT 应用于基于 UViM 框架的 VAE 变体进行全景分割（panoptic segmentation）和深度估计任务时，也取得了优异的性能表现，展现了其在图像生成之外领域的强大泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Michael Tschannen Cian Eastwood Fabian Mentzer

摘要

我们提出了生成式无限词汇量变换器（Generative Infinite-Vocabulary Transformers, GIVT），该模型生成的是包含实数值的向量序列，而非传统方法中基于有限词汇表的离散标记（token）。为此，我们对仅解码器结构的变换器提出了两个出人意料的简单改进：1）在输入端，用输入向量的线性投影替代原有的有限词汇查找表；2）在输出端，将传统的逻辑值（logits）预测（通常映射为类别分布）替换为多元高斯混合模型（multivariate Gaussian mixture model）的参数预测。受图像生成范式 VQ-GAN 和 MaskGIT 的启发——这些方法利用变换器建模 VQ-VAE 的离散潜在序列——我们采用 GIVT 来建模 $β$ -VAE 的未量化实值潜在序列。在类别条件图像生成任务中，GIVT 的性能优于 VQ-GAN 及其改进变体，也优于 MaskGIT，且达到了与近期潜在扩散模型相媲美的水平。此外，当将 GIVT 应用于基于 UViM 框架的 VAE 变体进行全景分割（panoptic segmentation）和深度估计任务时，也取得了优异的性能表现，展现了其在图像生成之外领域的强大泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供