DF-GAN:テキストから画像生成へのシンプルで効果的なベースライン

テキスト記述から高品質な現実的な画像を合成することは、困難な課題である。既存のテキストから画像への生成対抗ネットワーク(Text-to-Image Generative Adversarial Networks)は一般的にスタック型アーキテクチャをバックボーンとして採用しているが、依然として3つの課題を抱えている。第一に、スタック型アーキテクチャは異なる画像スケールにおける生成器間の混合(entanglement)を引き起こす。第二に、従来の研究では、テキストと画像の意味的整合性を確保するために、敵対学習に追加のネットワークを適用・固定する傾向があり、これによりこれらのネットワークの監視能力が制限される。第三に、従来の手法で広く採用されているクロスモーダルアテンションベースのテキスト-画像融合は、計算コストの高さから特定の画像スケールにおいて限界がある。こうした課題に対処するため、本研究では、よりシンプルでありながらもより効果的な「Deep Fusion Generative Adversarial Networks(DF-GAN)」を提案する。具体的には以下の3点を提案する:(i)複数の生成器間の混合を回避しつつ、高解像度画像を一段階で直接合成可能な新規なテキストから画像へのバックボーン;(ii)追加のネットワークを導入せずに、テキストと画像の意味的整合性を強化する「Target-Aware Discriminator」(マッチング感知勾配ペナルティとワンウェイ出力から構成);(iii)テキスト特徴と視覚特徴の完全な融合を実現するため、融合プロセスを深くする新規なディープテキスト-画像融合ブロック。既存の最先端手法と比較して、提案するDF-GANは構造がより単純でありながら、現実的でテキストに整合した画像の生成においてより効率的であり、広く用いられるデータセットにおいて優れた性能を達成している。