要約
生成対抗ネットワーク(Generative Adversarial Networks, GANs)は、画像生成において優れた能力を発揮するため、注目を集めている。しかし、生成器(Generator, G)と識別器(Discriminator, D)の間のゲームが非対称であるため、GANの訓練は困難である。この非対称性を緩和し、競争をより公正なものにするために、本研究では新たな訓練アプローチを提案する。これを「一貫した潜在表現と再構成」(Consistent Latent Representation and Reconstruction, CLR-GAN)と呼ぶ。本アーキテクチャでは、GとDを逆過程として捉え、識別器には事前に定義された潜在コードの復元という付加的なタスクを、生成器には実際の入力データの再構成を課す。これにより、Gの潜在空間とDの出力特徴間の明確な関係性を獲得できる。この事前知識に基づき、新たな評価基準を導入することで、訓練過程においてGとDを等価な立場に置くことが可能となる。複数のデータセットおよびアーキテクチャにおける実験結果から、本手法がGANの訓練安定性を向上させ、より高品質な画像を生成できることを確認した。特にCIFAR10ではFIDスコアが31.22%改善、AFHQ-Catでは39.5%の改善が達成された。本研究で提示する視点が、二プレーヤーゲームにとらわれず、GANの訓練を異なる観点から探求する研究者らのインスピレーションとなることを期待する。実装コードはGitHubにて公開されている:https://github.com/Petecheco/CLR-GAN。