
摘要
现实世界中的图像识别系统需要识别数万个类别,这些类别构成了众多的视觉概念。传统的每类标注数千张图像以进行训练的方法在这种情况下是不可行的,这促使了网络监督数据的使用。本文探讨了在大量图像及其相关用户评论上训练图像识别系统的可能性。特别地,我们开发了视觉n-gram模型,该模型可以预测与图像内容相关的任意短语。我们的视觉n-gram模型是前馈卷积神经网络,通过受语言建模中常用的n-gram模型启发的新损失函数进行训练。我们在短语预测、基于短语的图像检索、图像与标题的关系建立以及零样本迁移等方面展示了我们模型的优势。