17日前

Transformersの可能性を解き放つ:離散吸収拡散を用いた並列トークン予測によるベクタ量子化コードからの高速高解像度画像生成

Sam Bond-Taylor, Peter Hessey, Hiroshi Sasaki, Toby P. Breckon, Chris G. Willcocks
Transformersの可能性を解き放つ:離散吸収拡散を用いた並列トークン予測によるベクタ量子化コードからの高速高解像度画像生成
要約

拡散確率モデルは高品質な画像コンテンツの生成が可能であるものの、高解像度画像の生成およびそれに伴う高い計算コストという重要な課題が依然として残っている。近年のベクトル量子化(Vector-Quantized)画像モデルは、画像解像度の制約を克服したが、事前分布からの要素ごとの自己回帰的サンプリングによってトークンを生成するため、処理が極めて遅く、一方通行の性質を持つという問題がある。これに対して、本論文では、バックボーンに制約のないTransformerアーキテクチャを用いることで、ベクトル量子化トークンの並列予測を可能にする、新しい離散拡散確率モデルの事前分布を提案する。学習段階では、トークンが順序に依存せずにランダムにマスクされ、Transformerは元のトークンを予測するように学習する。このベクトル量子化トークンの並列予測により、計算コストを大幅に削減しつつ、グローバルに一貫した高解像度かつ多様な画像を無条件に生成することが可能となる。このアプローチにより、訓練データのサンプルよりも高い解像度の画像を生成でき、さらに各画像に対する尤度推定値を提供できる(生成的敵対ネットワーク(GAN)アプローチとは異なり、確率的出力が可能)。本手法は、密度(LSUN Bedroom: 1.51、LSUN Churches: 1.12、FFHQ: 1.20)およびカバレッジ(LSUN Bedroom: 0.83、LSUN Churches: 0.73、FFHQ: 0.80)において最先端の性能を達成し、FID(LSUN Bedroom: 3.64、LSUN Churches: 4.07、FFHQ: 6.11)においても競争力のある結果を示すとともに、計算コストの低減および訓練データセットの規模削減という点で優位性を有している。