2ヶ月前
AttnGAN: 注意力生成対抗ネットワークを用いた細かい粒度のテキストから画像生成
Tao Xu; Pengchuan Zhang; Qiuyuan Huang; Han Zhang; Zhe Gan; Xiaolei Huang; Xiaodong He

要約
本論文では、注意駆動の多段階精製を可能とする細部生成のテキストから画像への生成に向けたアテンショナルジェネレーティブアドバーザリアルネットワーク(AttnGAN)を提案します。新しいアテンショナルジェネレーティブネットワークにより、AttnGANは自然言語記述中の関連する単語に注目することで、画像の異なる部分領域で細部詳細を合成することが可能です。さらに、深層アテンショナルマルチモーダル類似性モデルを提案し、ジェネレーターの学習に用いる細部の画像-テキストマッチング損失を計算します。提案されたAttnGANは従来の最先端技術を大幅に上回り、CUBデータセットでは最高報告値のインセプションスコアを14.14%向上させ、より困難なCOCOデータセットでは170.25%向上させました。また、AttnGANの注意層を可視化した詳細な分析も行われています。これは初めて、層状の注意駆動型GANが単語レベルでの条件を選択して画像の異なる部分を生成できることが示されました。