
摘要
著名的词语类比实验表明,最近的词向量通过线性向量偏移捕捉了词语中的细粒度语言规律,但尚不清楚这些简单的向量偏移在多大程度上能够编码词语的视觉规律。本文研究了一种特定的图像-词语相关关系。我们的结果显示,在词向量空间的主要方向上,给定图像的相关标签的词向量排名高于无关标签。受此观察启发,我们提出通过估计图像的主要方向来解决图像标注问题。具体而言,我们利用线性映射和非线性的深度神经网络从输入图像中近似主要方向。由此构建了一个非常灵活的标注模型。该模型在测试图像时运行速度快,在训练集规模方面具有常数时间复杂度。它不仅在NUS-WIDE数据集上的传统标注任务中表现出色,而且在标注包含先前未见过的标签的图像时也优于竞争基线方法。