2 个月前

展示与讲述:神经图像标题生成器

Oriol Vinyals; Alexander Toshev; Samy Bengio; Dumitru Erhan
展示与讲述:神经图像标题生成器
摘要

自动描述图像内容是人工智能领域的一个基本问题,它连接了计算机视觉和自然语言处理。在本文中,我们提出了一种基于深度递归架构的生成模型,该模型结合了计算机视觉和机器翻译领域的最新进展,可用于生成描述图像的自然句子。该模型通过最大化给定训练图像的目标描述句子的概率来进行训练。我们在多个数据集上进行了实验,结果表明该模型不仅准确度高,而且所学习的语言流畅。我们从定性和定量两个方面验证了模型的准确性。例如,在Pascal数据集上,当前最先进的BLEU-1分数(越高越好)为25,而我们的方法达到了59,接近人类的表现约为69。此外,在Flickr30k数据集上,我们的BLEU-1分数从56提高到66;在SBU数据集上,从19提高到28。最后,在新发布的COCO数据集上,我们实现了27.7的BLEU-4分数,这是目前最先进的水平。

展示与讲述:神经图像标题生成器 | 最新论文 | HyperAI超神经