17日前
テキストから画像合成を実現するためのベクトル量子化拡散モデル
Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo

要約
テキストから画像生成を行うためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。本手法は、最近開発されたノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Model, DDPM)の条件付き変種を用いて潜在空間をモデル化するベクトル量子化変分自己符号化器(VQ-VAE)に基づいている。我々の調査では、この潜在空間アプローチがテキストから画像生成タスクに適していることが分かった。その理由は、従来の手法に見られる一方向性バイアスを排除できるだけでなく、誤差の蓄積という従来手法における深刻な問題を回避するため、マスクと置換を組み込んだ拡散戦略を導入可能であるためである。実験結果から、パラメータ数が類似する従来の自己回帰(AR)モデルと比較して、VQ-Diffusionははるかに優れたテキストから画像生成結果を達成することが示された。また、従来のGANベースのテキストから画像生成手法と比較しても、VQ-Diffusionはより複雑なシーンを扱うことができ、合成画像の品質を大幅に向上させることができる。さらに、本手法における画像生成計算は再パラメータ化によって著しく効率化できることが示された。従来のAR手法では、出力画像の解像度が高くなるにつれて生成時間が線形に増加するため、通常サイズの画像生成ですら非常に時間がかかる。一方、VQ-Diffusionは品質と速度のバランスをより良好に実現可能である。実験結果によれば、再パラメータ化を適用したVQ-Diffusionモデルは、従来のAR手法と比較して15倍高速でありながら、さらに優れた画像品質を達成している。