17日前

ドラフトアンドリバイズ:文脈的RQ-Transformerを用いた効果的な画像生成

Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han
ドラフトアンドリバイズ:文脈的RQ-Transformerを用いた効果的な画像生成
要約

自己回帰モデルは画像生成において有望な成果を達成しているが、一方通行の生成プロセスにより、生成画像が全体的な文脈を十分に反映できないという課題がある。この問題に対処するために、生成プロセス中に全体的な文脈を考慮できる効果的な画像生成フレームワーク「Draft-and-Revise with Contextual RQ-Transformer」を提案する。RQ-VAEは、一般化されたVQ-VAEとして、高解像度画像を離散コードスタックの系列として表現する。その後、系列内のコードスタックをランダムにマスクし、マスクされていない部分の画像文脈に基づいて、Contextual RQ-Transformerがマスクされたコードスタックを補完するように学習する。その後、我々が提案する二段階デコード手法「Draft-and-Revise」を用いて、Contextual RQ-Transformerは画像を生成する際、画像の全体的な文脈を活用する。具体的には、第一段階の「Draft(下書き)」では、やや低い品質ではあるが多様な画像の生成に注力する。第二段階の「Revise(修正)」では、生成画像の品質を反復的に向上させつつ、生成画像の全体的な構造を保持する。実験の結果、本手法は条件付き画像生成において最先端の性能を達成した。また、Draft-and-Reviseデコードが画像生成における品質と多様性のトレードオフを効果的に制御できることも実証した。

ドラフトアンドリバイズ:文脈的RQ-Transformerを用いた効果的な画像生成 | 最新論文 | HyperAI超神経