
要約
テキストによる画像説明を条件とする生成的対抗ネットワーク(GAN)は、現実的な外観を持つ画像の生成が可能である。しかし、現在の手法は異種ドメインからの複雑な画像キャプションに基づく画像生成において依然として困難を抱えている。さらに、テキストから画像を生成するモデルの定量的評価は難しく、多数の評価指標が画像の品質のみを評価しており、生成画像とそのキャプションとの整合性(適合性)は評価されていない。これらの課題に対処するため、本研究では画像内の個々のオブジェクトを明示的にモデル化する新しいモデルと、画像キャプションに基づいて生成された画像を特に評価する新しい評価指標「セマンティックオブジェクト正確度(Semantic Object Accuracy: SOA)」を提案する。SOAは、事前に学習されたオブジェクト検出器を用いて、生成画像にキャプションに記載されたオブジェクトが含まれているかどうかを評価する。たとえば、「通りを走る車」というキャプションから生成された画像に実際に車が含まれているかを判定する。我々は複数のテキストから画像を生成するモデルを対象にユーザースタディを行い、SOA指標が人間の評価と一致した順位を提示する一方で、インセプションスコア(Inception Score)などの従来の指標はそのような一致を示さないことを示した。また、本評価結果から、オブジェクトを明示的にモデル化するモデルが、全体的な画像特徴のみをモデル化するモデルよりも優れた性能を発揮することが明らかになった。