7日前

高解像度GAN向けに改善されたTransformer

Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang

要約

アテンションベースのモデル、特にTransformerは長距離依存関係を効果的にモデル化できるが、自己アテンション演算の二次時間計算量という課題を抱えており、生成対抗ネットワーク（GAN）を用いた高解像度画像生成への適用が困難である。本論文では、この課題に対処するための2つの鍵となる要素をTransformerに導入する。第一に、生成プロセスの低解像度段階では、標準的なグローバル自己アテンションを、局所的およびグローバルなアテンションを効率的に混合できる新規の「多軸ブロック自己アテンション」に置き換える。第二に、高解像度段階では自己アテンションを完全に排除し、implicit neural functionを想起させる多層パーセプトロン（MLP）のみを保持する。さらに性能向上を図るため、クロスアテンションに基づく追加の自己調整（self-modulation）モジュールを導入する。その結果得られたモデル、HiT（Hierarchical Transformer）は、画像サイズに対してほぼ線形の計算量を実現し、高精細画像の直接合成が可能となる。実験の結果、無条件生成におけるImageNet $128 \times 128$ および FFHQ $256 \times 256$ において、それぞれFIDスコア30.83および2.95という最先端の性能を達成し、実用的なスループットも維持している。本研究で提案するHiTは、完全に畳み込みを排除したGAN生成器における重要な一歩であると考えられる。コードはGitHubにて公開されており、https://github.com/google-research/hit-gan から入手可能である。