2 个月前
多层级多模态公共语义空间用于图像-短语对齐
Hassan Akbari; Svebor Karaman; Surabhi Bhargava; Brian Chen; Carl Vondrick; Shih-Fu Chang

摘要
我们通过学习一种多层级的共同语义空间来解决短语定位问题,该空间由文本和视觉模态共享。我们利用了深度卷积神经网络的多层级特征图以及基于字符的语言模型提取的情境化单词和句子嵌入。在对每个层级的视觉特征、单词和句子嵌入进行专门的非线性映射之后,我们在多个实例化的共同语义空间中使用余弦相似度进行任何目标文本与视觉内容之间的比较。我们通过一个多层级的多模态注意力机制引导模型,该机制在每个层级输出注意后的视觉特征。选择最佳层级与文本内容进行比较,以最大化真实图像-句子对的相关性得分。在三个公开数据集上进行的实验表明,我们的方法在短语定位方面相比现有最先进技术取得了显著的性能提升(相对提升了20%-60%),并在这些数据集上创造了新的性能记录。我们提供了一项详细的消融研究,展示了我们方法中每个元素的贡献,并将代码发布在GitHub上。