
要約
本論文では、テキスト記述から現実的な画像を生成することに焦点を当てています。現在の手法はまず、大まかな形状と色を持つ初期画像を生成し、その後、その初期画像を高解像度のものに洗練します。既存のテキストから画像への合成手法には主に2つの問題があります。(1) これらの手法は初期画像の品質に大きく依存しています。初期画像が適切に初期化されていない場合、その後のプロセスでは満足できる品質まで画像を洗練することは困難です。(2) 異なる画像コンテンツを描写する際、各単語は異なる重要度を持ちますが、既存の画像洗練プロセスでは変更されないテキスト表現が使用されています。本論文では、高品質な画像を生成するために動的メモリジェネラティブアドバーザリアルネットワーク(Dynamic Memory Generative Adversarial Network: DM-GAN)を提案します。提案手法では、初期画像が適切に生成されていない場合でもぼやけた画像コンテンツを洗練するための動的メモリモジュールを導入しています。また、メモリ書き込みゲートを設計して初期画像コンテンツに基づいて重要なテキスト情報を選択し、これにより当手法はテキスト記述から正確に画像を生成することが可能となります。さらに、レスポンスゲートを使用してメモリから読み取った情報と画像特徴量を適応的に融合させることも行っています。DM-GANモデルの評価はCaltech-UCSD Birds 200データセットおよびMicrosoft Common Objects in Contextデータセットで行われました。実験結果は当DM-GANモデルが最先端の手法に対して有利な性能であることを示しています。