
与えられたテキスト記述から画像を生成する目的は、視覚的なリアリズムと意味的一貫性の2つです。ジェネレーティブ・アドバーザリアル・ネットワークを使用して高品質で視覚的にリアルな画像を生成する技術には大きな進歩が見られますが、テキスト記述と視覚的内容との間の意味的一貫性を保証することは依然として非常に困難な課題となっています。本論文では、この問題に対処するために、新しいグローバル-ローカル注意および意味保存型のテキスト-画像-テキスト変換フレームワークであるミラーガン(MirrorGAN)を提案します。ミラーガンは再記述によってテキストから画像の生成を学習するというアイデアを利用しており、3つのモジュールで構成されています:意味的テキスト埋め込みモジュール(Semantic Text Embedding Module, STEM)、段階的な画像生成に向けたグローバル-ローカル協調注意モジュール(Global-Local Collaborative Attentive Module for Cascaded Image Generation, GLAM)、そして意味的テキスト再生成および整列モジュール(Semantic Text Regeneration and Alignment Module, STREAM)。STEMは単語レベルと文レベルの埋め込みを生成します。GLAMは粗いスケールから細かいスケールへと段階的に目標画像を生成するための連続的なアーキテクチャを持ち、局所的な単語注意と全体的な文注意の両方を利用して、生成された画像の多様性と意味的一貫性を段階的に向上させます。STREAMは生成された画像から元のテキスト記述と同じ意味を持つ新たなテキスト記述を再生することを目指しています。2つの公開ベンチマークデータセットでの詳細な実験により、ミラーガンが他の代表的な最先端手法よりも優れていることが示されました。