17日前

テキストから画像生成を対照学習を用いて改善する

Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji

要約

テキストから画像を合成する目的は、与えられたテキスト記述と一致する視覚的に現実的な画像を生成することである。実際には、同一の画像に対して人間が付与したキャプションは、内容や用語の選択において大きなばらつきを示す。同一画像に対するキャプション間の言語的不一致は、合成画像が真の画像（ground truth）から逸脱する原因となる。この問題に対処するため、本研究では合成画像の品質向上と意味的整合性の強化を目的として、対照学習（contrastive learning）アプローチを提案する。事前学習段階では、同一画像に対応するキャプション群に対して一貫したテキスト表現を学習するために対照学習を活用する。さらに、GANの学習フェーズにおいても、同一画像に関連するキャプションから生成された画像間の整合性を強化するために、同様の対照学習手法を用いる。本手法は、それぞれCUBおよびCOCOデータセット上で、代表的なテキストから画像合成モデルであるAttnGANおよびDM-GANを用いて評価された。実験結果から、本手法がIS（Inception Score）、FID（Fréchet Inception Distance）、R-precisionの3つの指標において、合成画像の品質を効果的に向上させることを示した。特に、難易度の高いCOCOデータセットにおいて、AttnGANに対してFIDを29.60%、DM-GANに対して21.96%改善する効果が確認された。