HyperAIHyperAI

Command Palette

Search for a command to run...

高解像度GAN向けに改善されたTransformer

Long Zhao Zizhao Zhang Ting Chen Dimitris N. Metaxas Han Zhang

概要

アテンションベースのモデル、特にTransformerは長距離依存関係を効果的にモデル化できるが、自己アテンション演算の二次時間計算量という課題を抱えており、生成対抗ネットワーク(GAN)を用いた高解像度画像生成への適用が困難である。本論文では、この課題に対処するための2つの鍵となる要素をTransformerに導入する。第一に、生成プロセスの低解像度段階では、標準的なグローバル自己アテンションを、局所的およびグローバルなアテンションを効率的に混合できる新規の「多軸ブロック自己アテンション」に置き換える。第二に、高解像度段階では自己アテンションを完全に排除し、implicit neural functionを想起させる多層パーセプトロン(MLP)のみを保持する。さらに性能向上を図るため、クロスアテンションに基づく追加の自己調整(self-modulation)モジュールを導入する。その結果得られたモデル、HiT(Hierarchical Transformer)は、画像サイズに対してほぼ線形の計算量を実現し、高精細画像の直接合成が可能となる。実験の結果、無条件生成におけるImageNet 128×128128 \times 128128×128 および FFHQ 256×256256 \times 256256×256 において、それぞれFIDスコア30.83および2.95という最先端の性能を達成し、実用的なスループットも維持している。本研究で提案するHiTは、完全に畳み込みを排除したGAN生成器における重要な一歩であると考えられる。コードはGitHubにて公開されており、https://github.com/google-research/hit-gan から入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています