
要約
生成対抗ネットワーク(GAN)と自己教師付きタスクを組み合わせることで、非条件および準教師付き画像生成において有望な成果が得られている。本研究では、生成器の潜在空間を摂動することによって生成画像に引き起こされる変換(GANによって誘発される変換)を推定することで、画像生成の品質と多様性を向上させる自己教師付きアプローチ(LT-GAN)を提案する。具体的には、各ペアが生成画像とその変換版から構成される2つの画像ペアを入力として、自己教師付きタスクは、与えられたペアに適用された潜在空間変換が他方のペアと同一であるかどうかを識別することを目的とする。このアシスタント損失により、補助ネットワークによって生成画像が識別可能になるよう生成器が促進され、結果として潜在空間変換に対して意味的に一貫性を持つ画像の合成が促進される。我々は、CIFAR-10、CelebA-HQ、ImageNetの各データセットにおいて、最新の条件付きおよび非条件付きモデルに対して、FIDスコアの観点から本プレテキストタスクの有効性を実証した。さらに、実験的にLT-GANが、ベースラインモデルと比較してCelebA-HQおよびImageNetにおける制御された画像編集の性能向上に寄与することを示した。また、本研究で提案するLT自己教師付きタスクが、他の最先端の学習手法と効果的に組み合わせ可能であることも実験的に確認した。その結果、我々のアプローチは、条件付きCIFAR-10画像生成において、新たな最先端のFIDスコア9.8を達成した。