2 个月前

用于视觉段落生成的循环主题转换GAN

Xiaodan Liang; Zhiting Hu; Hao Zhang; Chuang Gan; Eric P. Xing
用于视觉段落生成的循环主题转换GAN
摘要

自然图像通常传达丰富的语义内容,并可以从不同角度进行观察。现有的图像描述方法大多受到带有偏见的小规模视觉段落注释集的限制,无法涵盖丰富的底层语义。在本文中,我们研究了一种半监督的段落生成框架,该框架能够通过推理局部语义区域并利用语言知识来合成多样且语义连贯的段落描述。所提出的循环主题转换生成对抗网络(Recurrent Topic-Transition Generative Adversarial Network, RTT-GAN)构建了一个在结构化段落生成器和多层级段落判别器之间对抗的框架。段落生成器通过在每一步中结合基于区域的视觉注意力机制和语言注意力机制来递归生成句子。生成的段落句子的质量由多层级对抗判别器从两个方面进行评估,即句子层面的合理性和平滑的主题转换连贯性。RTT-GAN 的联合对抗训练促使模型生成具有平滑逻辑过渡的真实段落。在图像和视频段落数据集上进行的大量定量实验表明,我们的 RTT-GAN 在有监督和半监督设置下均具有有效性。定性结果也验证了 RTT-GAN 在为同一图像讲述多种故事方面的可解释性。