
摘要
基于文本图像描述的生成对抗网络(Generative Adversarial Networks, GANs)能够生成外观逼真的图像。然而,现有方法在根据异构领域中复杂的图像描述生成图像方面仍面临挑战。此外,对这类文本到图像生成模型进行定量评估也十分困难,因为大多数评估指标仅关注图像质量,而无法衡量生成图像与对应文本描述之间的一致性。为应对上述挑战,我们提出一种新模型,该模型显式建模图像中的各个独立对象,并引入一种新的评估指标——语义对象准确率(Semantic Object Accuracy, SOA),专门用于评估生成图像与给定图像描述之间的匹配程度。SOA利用预训练的目标检测器,判断生成图像中是否包含描述中提及的物体。例如,对于描述“一辆汽车在街道上行驶”,SOA可检测生成图像中是否确实包含汽车。我们通过用户研究对比了多种文本到图像生成模型,结果表明,SOA指标的模型排序结果与人类评价高度一致,而其他传统指标(如Inception Score)则未能实现这一效果。此外,我们的评估还表明,显式建模图像中对象的模型,其性能显著优于仅建模全局图像特征的模型。