
摘要
视觉-语义嵌入旨在找到一个共享的潜在空间,在该空间中相关的视觉和文本实例彼此接近。目前大多数方法学习的是单射嵌入函数,将一个实例映射到共享空间中的单一位置。然而,单射嵌入无法有效处理具有多种可能含义的多义实例;最多只能找到不同含义的平均表示。这限制了其在现实场景中的应用,因为在这些场景中,个体实例及其跨模态关联往往存在模糊性。在这项工作中,我们引入了多义实例嵌入网络(Polysemous Instance Embedding Networks, PIE-Nets),该网络通过结合全局上下文和局部引导特征,利用多头自注意力机制和残差学习计算一个实例的多个多样表示。为了学习视觉-语义嵌入,我们将两个PIE-Nets连接起来,并在多示例学习框架中联合优化它们。现有的大多数跨模态检索研究主要集中在图像-文本数据上。在这里,我们还处理了一个更具挑战性的视频-文本检索问题。为了促进视频-文本检索领域的进一步研究,我们从社交媒体中收集了50K个视频-句子对,并发布了这一新数据集,命名为MRW(我的反应是)。我们在MS-COCO、TGIF以及我们的新MRW数据集上展示了我们的方法在图像-文本和视频-文本检索场景中的应用效果。