
摘要
连接两个数据源是众多计算机视觉问题中的基本构建模块。典型相关分析(CCA)通过使用线性优化器来最大化两个视图之间的相关性,从而实现这一目标。近期的研究工作利用了非线性模型,包括深度学习技术,在某些特征空间中优化CCA损失。在本文中,我们提出了一种新颖的双向神经网络架构,用于匹配来自两个数据源的向量。我们的方法采用了两个绑定的神经网络通道,利用欧几里得损失将两个视图投影到一个共同的最大相关空间中。我们展示了基于相关性的损失与欧几里得损失之间的直接联系,使得可以使用欧几里得损失进行相关性最大化。为了解决常见的欧几里得回归优化问题,我们对已知的技术进行了修改以适应我们的任务,包括批归一化和dropout。我们在多个计算机视觉匹配任务上展示了最先进的结果,包括MNIST图像匹配以及在Flickr8k、Flickr30k和COCO数据集上的句子-图像匹配任务。