17 天前

RefineCap:面向图像描述生成的语义感知优化方法

Yekun Chai, Shuo Jin, Junliang Xing
RefineCap:面向图像描述生成的语义感知优化方法
摘要

将图像自动翻译为文本涉及图像场景理解与语言建模。本文提出一种新颖的模型——RefineCap,该模型通过解码器引导的视觉语义来优化语言解码器的输出词汇,并隐式学习视觉标签词与图像之间的映射关系。所提出的视觉概念精炼方法使生成器能够关注图像中的语义细节,从而生成更具语义描述性的图像标题。在MS-COCO数据集上的实验结果表明,该模型在性能上优于以往基于视觉概念的模型。