2 个月前

图像和语言的序嵌入

Ivan Vendrov; Ryan Kiros; Sanja Fidler; Raquel Urtasun
图像和语言的序嵌入
摘要

上位关系(hypernymy)、文本蕴含(textual entailment)和图像描述(image captioning)可以被视为在词汇、句子和图像之间建立的单一视觉-语义层次结构的特例。本文主张显式建模这一层次结构的部分有序性。为此,我们引入了一种用于学习有序表示的一般方法,并展示了如何将其应用于涉及图像和语言的各种任务中。实验结果表明,所得到的表示在上位词预测和图像-描述检索任务上的性能优于现有方法。