
要約
高解像度画像の自己回帰(AR)モデル化において、ベクトル量子化(VQ)は画像を離散コードの列として表現する手法である。ARモデルの計算コストを低減し、コード間の長距離相関を効率的に扱うためには、コード列の長さを短くすることが重要である。しかし、本研究では、従来のVQ手法がレート・歪みのトレードオフの観点から、コード列の短縮と高忠実度の画像生成を同時に達成できないと仮定する。この問題に対処するため、本研究では、Residual-Quantized VAE(RQ-VAE)とRQ-Transformerから構成される二段階フレームワークを提案する。固定されたコードブックサイズのもとで、RQ-VAEは画像の特徴マップを高精度に近似し、離散コードの積層マップとして画像を表現できる。その後、RQ-Transformerは次の位置における量子化された特徴ベクトルを、次のコードスタックを予測することによって学習する。RQ-VAEによる高精度な近似により、256×256の画像を8×8の特徴マップ解像度で表現可能となり、RQ-Transformerは計算コストを効率的に削減できる。結果として、本フレームワークは、非条件および条件付き画像生成のさまざまなベンチマークにおいて、既存のARモデルを上回る性能を達成した。さらに、本手法は従来のARモデルに比べて、高品質な画像生成に際して著しく高速なサンプリング速度を実現している。