
要約
我々は、GANアーキテクチャにおけるスタイルベースの生成器として、畳み込み演算を一切用いないTransformerベースの生成器「Styleformer」を提案する。本論文では、畳み込み演算が画像のグローバルな特徴を捉えることに難があるという課題を克服し、Transformerが高品質な画像を生成する仕組みを解説する。さらに、StyleGAN2のデモジュレーション機構を改変し、従来のTransformer構造(例:残差接続、レイヤーナーマライゼーション)を最適化することで、畳み込みを排除しつつも強力なスタイルベース生成器を実現した。また、Linformerを導入することでStyleformerの計算負荷を軽量化し、より高解像度の画像生成を可能にするとともに、処理速度とメモリ使用量の面で効率性を向上させた。CIFAR-10などの低解像度画像データセットおよびLSUN-churchなどの高解像度画像データセットを用いた実験において、CIFAR-10ではFID 2.82、IS 9.94を達成し、現在の最先端技術と同等の性能を発揮しつつ、パラメータ数が少ない条件下でStyleGAN2-ADAを含むすべてのGANベースの生成モデルを上回った。また、STL-10およびCelebAにおいても、それぞれFID 15.17、IS 11.01、FID 3.66という新たな最先端の結果を達成した。本研究のコードは、https://github.com/Jeeseung-Park/Styleformer にて公開している。