6ヶ月前

概要

近年、画像生成に用いられる深層生成モデル（たとえば、拡散モデル（Diffusion Models, DMs）や生成的対抗ネットワーク（Generative Adversarial Networks, GANs））の性能は著しく向上しているが、その多くは計算コストが非常に高いアーキテクチャに起因している。このため、これらのモデルの導入や利用は、大規模なリソースを有する研究機関や企業に限定されており、トレーニング、ファインチューニング、推論における炭素排出量も顕著に増加している。本研究では、新たなGANアーキテクチャであるLadaGANを提案する。このアーキテクチャは、線形アテンションを用いたTransformerブロック「Ladaformer」に基づいている。このブロックの核心となるのは、各ヘッドごとに二次元的なドット積アテンションではなく、単一のアテンションベクトルを計算する線形加法的アテンション機構である。LadaGANでは、生成器および識別器の両方にLadaformerを採用することで、計算複雑度を低減し、TransformerベースのGANにしばしば見られる学習の不安定性を克服している。LadaGANは、異なる解像度におけるベンチマークデータセット上で、従来の畳み込み型およびTransformer型GANを一貫して上回る性能を発揮するとともに、著しく効率的である。さらに、複数ステップ生成モデル（例：DMs）の最先端性能と比較しても、計算リソースを数桁程度に抑えながら競争力のある性能を達成している。

ソースPDF