11日前

MoVQ:高精細な画像生成のための量子化ベクトルの調節

Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, Dinh Phung
MoVQ:高精細な画像生成のための量子化ベクトルの調節
要約

2段階型ベクトル量子化(VQ)生成モデルは、高精細かつ高解像度の画像合成を可能にしているものの、従来のデコーダアーキテクチャでは、画像内の類似した領域が同じインデックスに符号化されるため、隣接する類似領域に重複アーティファクトが生じる問題がある。本研究では、この問題を解決するため、空間的に条件付けられた正規化を導入し、量子化されたベクトルを空間依存的に調整することで、埋め込みインデックスマップに空間的に変化する情報を付加する手法を提案する。これにより、デコーダがより写実的な画像を生成するよう促進される。さらに、モデルおよびコードブックのコストを増加させることなく、離散コードの再構成能力を高めるためにマルチチャネル量子化を採用する。また、2段階目の離散トークン生成には、従来の自己回帰モデルよりも高速な、マスク付き生成画像変換器(MaskGIT)を用いて、圧縮された潜在空間における潜在的な事前分布を学習する。2つのベンチマークデータセットにおける実験結果から、本研究で提案する調整型VQGANが、画像再構成品質を大幅に向上させるとともに、高忠実度の画像生成を実現できることを示した。