
要約
テキストから画像への合成は、テキスト記述を条件として自然な画像を生成することを目的とする。このタスクの主な課題は、テキスト情報を画像合成プロセスに効果的に統合することにある。従来の手法では、複数の独立した融合ブロック(例:条件付きバッチ正規化やインスタンス正規化)を用いて、適切なテキスト情報を合成プロセスに動的に統合するアプローチが採られている。しかし、これらの独立した融合ブロックは互いに矛盾を引き起こすとともに、学習の難易度を高める要因となっている(補足資料の第1ページを参照)。こうした問題を解決するため、本研究では生成対抗ネットワーク(GAN)向けに再帰的アフィン変換(Recurrent Affine Transformation: RAT)を提案する。RATは、すべての融合ブロックを再帰ニューラルネットワークで接続することで、それらの長期依存関係をモデル化する。さらに、テキストと合成画像間の意味的整合性を向上させるために、識別器に空間的アテンションモデルを組み込む。このアテンション機構により、識別器は画像のどの領域がテキスト記述と一致しているかを把握し、その情報をもとに生成器がより関連性の高い画像コンテンツを生成するよう指導する。CUB、Oxford-102、COCOの3つのデータセットにおける広範な実験により、提案手法が最先端のモデルと比較して優れた性能を発揮することが示された。\footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}