
要約
2つのデータソースを連結することは、多くのコンピュータビジョンの問題における基本的な構成要素です。正準相関分析(Canonical Correlation Analysis: CCA)は、線形最適化手法を利用して2つの視点間の相関を最大化することでこれを実現します。最近の研究では、特徴空間でのCCA損失を最適化する非線形モデル、特に深層学習技術が使用されています。本論文では、2つのデータソースからベクトルをマッチングするタスクに向けた新しい双方向ニューラルネットワークアーキテクチャを提案します。当方針では、2つの結合されたニューラルネットワークチャンネルを使用し、ユークリッド損失を利用して2つの視点を共通の最大相関空間に射影します。我々は、相関に基づく損失とユークリッド損失との直接的な関連性を示し、これにより相関最大化のためにユークリッド損失を使用することが可能となります。一般的なユークリッド回帰最適化の問題を克服するために、バッチ正規化やドロップアウトなどの既知の手法を当問題に適用した改良を行いました。MNIST画像マッチングやFlickr8k、Flickr30kおよびCOCOデータセット上の文-画像マッチングなど、複数のコンピュータビジョンのマッチングタスクにおいて最先端の結果を示しています。