
要約
テキストから高精細な複雑な画像を合成することは困難である。大規模な事前学習に基づく自己回帰モデルおよび拡散モデルは、写真のようにリアルな画像の生成を可能としている。これらの大規模モデルは顕著な進展を示しているものの、依然として3つの課題が残っている。1) 高い性能を達成するためには膨大な学習データとパラメータが必要となる。2) 多段階生成設計により、画像生成プロセスが著しく遅延する。3) 生成された視覚的特徴の制御が困難であり、細緻なプロンプト設計を必要とする。高品質、効率的、高速かつ制御可能なテキストから画像への合成を実現するため、本研究では「生成的対抗CLIP(Generative Adversarial CLIPs)」、すなわちGALIPを提案する。GALIPは、識別器と生成器の両方で強力な事前学習済みCLIPモデルを活用する。具体的には、CLIPに基づく識別器を提案する。CLIPが持つ複雑なシーン理解能力により、識別器は画像品質を高精度で評価できる。さらに、橋渡し特徴(bridge features)とプロンプトを通じてCLIPから視覚的概念を誘導するCLIP強化型生成器を提案する。CLIP統合型生成器と識別器により、学習効率が向上し、本モデルは約3%の学習データおよび6%の学習可能なパラメータで、大規模な事前学習済み自己回帰モデルや拡散モデルと同等の結果を達成している。さらに、生成速度は120倍高速であり、GAN由来の滑らかな潜在空間を継承している。広範な実験結果から、GALIPの優れた性能が実証された。コードは https://github.com/tobran/GALIP にて公開されている。