2 个月前

基于图像的多样性和连贯性段落生成

Moitreya Chatterjee; Alexander G. Schwing
基于图像的多样性和连贯性段落生成
摘要

从图像生成段落是近年来受到广泛关注的一项重要任务,对于视频摘要、编辑以及支持残疾人具有重要意义。传统的图像描述方法在这方面存在不足,因为它们并非设计用于生成长而详细的信息描述。此外,简单地将多个短句(可能来自经典图像描述系统)拼接起来的方法也无法体现段落的复杂性:连贯的句子、全局一致的结构和多样性。为了解决这些挑战,我们提出通过“连贯向量”、“全局主题向量”以及变分自编码器(Variational Auto-Encoder, VAE)公式来建模段落与图像之间固有的模糊关联,从而增强段落生成技术。我们在两个数据集上展示了所开发方法的有效性,结果表明该方法在这两个数据集上的表现均优于现有的最先进技术。