6 个月前

摘要

将图像自动翻译为文本涉及图像场景理解与语言建模。本文提出一种新颖的模型——RefineCap，该模型通过解码器引导的视觉语义来优化语言解码器的输出词汇，并隐式学习视觉标签词与图像之间的映射关系。所提出的视觉概念精炼方法使生成器能够关注图像中的语义细节，从而生成更具语义描述性的图像标题。在MS-COCO数据集上的实验结果表明，该模型在性能上优于以往基于视觉概念的模型。

源 PDF