StyleSwin:高解像度画像生成のためのTransformerベースのGAN

高解像度画像生成モデリングにおいて、トランスフォーマーはコンボリューショナルニューラルネットワーク(ConvNets)と同等の性能を示せていない。本論文では、純粋なトランスフォーマーを用いて高解像度画像合成用の生成対抗ネットワーク(GAN)を構築する可能性を検討する。そのために、計算効率とモデル表現力のバランスを取るために局所的アテンションが極めて重要であると考え、提案する生成器はスタイルベースアーキテクチャにスウィントランスフォーマー(Swin Transformer)を採用している。より大きな受容 field を得るため、局所窓とシフト窓の両方の文脈を同時に活用する「ダブルアテンション」を提案し、生成品質の向上を実現した。さらに、窓ベースのトランスフォーマーでは失われがちな絶対位置情報の導入が生成品質の向上に大きく寄与することを示した。提案手法であるStyleSwinは高解像度へのスケーラビリティを備えており、粗い幾何構造から細かい構造まで、トランスフォーマーの強力な表現力の恩恵を受けている。しかし、ブロック単位で局所アテンションを実行する際、空間的一貫性が損なわれることで、高解像度合成時にブロッキングアーティファクトが発生する問題が生じる。この問題を解決するために、さまざまな手法を実証的に検討した結果、スペクトル差異を評価するウェーブレットディスクリミネーターを導入することで、アーティファクトの抑制が効果的に実現できることを確認した。広範な実験により、従来のトランスフォーマーに基づくGANと比較して、特に1024×1024などの高解像度において顕著な優位性を示した。複雑な訓練戦略を用いずに、CelebA-HQ 1024ではStyleGANを上回る性能を達成し、FFHQ-1024では同等の性能を実現した。これにより、トランスフォーマーが高解像度画像生成に有望であることが実証された。コードおよびモデルは、https://github.com/microsoft/StyleSwin にて公開される予定である。