18 天前

MemCap:用于图像描述的记忆化风格知识

{Xiaoxun Zhang, Xinxiao wu, Wentian Zhao}
摘要

为图像生成具有特定风格的描述文本是一项具有挑战性的任务,因为它不仅要求准确描述图像内容,还需恰当地表达目标语言风格。本文提出了一种名为MemCap的新颖风格化图像描述方法,该方法通过记忆机制显式地编码语言风格知识。与现有方法高度依赖语言模型来捕捉风格特征不同,我们的方法通过记忆从训练语料中学习到的风格化元素来实现风格建模。具体而言,我们设计了一个记忆模块,其中包含一组嵌入向量,用于编码训练语料中与风格相关的短语。为了提取这些风格相关短语,我们开发了一种句子分解算法,能够将风格化句子拆分为反映语言风格的风格部分和包含视觉内容的内容部分。在生成描述时,MemCap首先通过注意力机制从记忆模块中提取与内容相关的风格知识,然后将这些知识融入语言模型中进行生成。在两个风格化图像描述数据集(SentiCap 和 FlickrStyle10K)上的大量实验结果表明,所提方法具有显著的有效性。