6 个月前

计算机视觉

计算机视觉

Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han

摘要

在高分辨率图像的自回归（AR）建模中，向量量化（VQ）将图像表示为一系列离散代码。对于AR模型而言，较短的代码序列长度至关重要，这有助于降低其计算成本，从而有效建模代码之间的长程依赖关系。然而，我们提出，以往的向量量化方法难以在保持率-失真权衡最优的前提下，同时实现代码序列的压缩与高质量图像的生成。为此，本文提出一种两阶段框架，由残差量化变分自编码器（RQ-VAE）与RQ-Transformer组成，以高效生成高分辨率图像。在固定码本大小的前提下，RQ-VAE能够精确逼近图像的特征图，并将其表示为离散代码的堆叠映射。随后，RQ-Transformer通过预测下一个代码堆叠来建模下一位置的量化特征向量。得益于RQ-VAE的高精度逼近能力，一幅256×256的图像可被压缩为8×8分辨率的特征图表示，从而显著降低RQ-Transformer的计算开销。实验结果表明，该框架在无条件与条件图像生成的多个基准测试中均优于现有的自回归模型。此外，与以往的AR模型相比，本方法在生成高质量图像时具备显著更快的采样速度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han

摘要

在高分辨率图像的自回归（AR）建模中，向量量化（VQ）将图像表示为一系列离散代码。对于AR模型而言，较短的代码序列长度至关重要，这有助于降低其计算成本，从而有效建模代码之间的长程依赖关系。然而，我们提出，以往的向量量化方法难以在保持率-失真权衡最优的前提下，同时实现代码序列的压缩与高质量图像的生成。为此，本文提出一种两阶段框架，由残差量化变分自编码器（RQ-VAE）与RQ-Transformer组成，以高效生成高分辨率图像。在固定码本大小的前提下，RQ-VAE能够精确逼近图像的特征图，并将其表示为离散代码的堆叠映射。随后，RQ-Transformer通过预测下一个代码堆叠来建模下一位置的量化特征向量。得益于RQ-VAE的高精度逼近能力，一幅256×256的图像可被压缩为8×8分辨率的特征图表示，从而显著降低RQ-Transformer的计算开销。实验结果表明，该框架在无条件与条件图像生成的多个基准测试中均优于现有的自回归模型。此外，与以往的AR模型相比，本方法在生成高质量图像时具备显著更快的采样速度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供