HyperAIHyperAI

Command Palette

Search for a command to run...

画像とテキストの2方向ネットワークによる連結

Aviv Eisenschtat; Lior Wolf

概要

2つのデータソースを連結することは、多くのコンピュータビジョンの問題における基本的な構成要素です。正準相関分析(Canonical Correlation Analysis: CCA)は、線形最適化手法を利用して2つの視点間の相関を最大化することでこれを実現します。最近の研究では、特徴空間でのCCA損失を最適化する非線形モデル、特に深層学習技術が使用されています。本論文では、2つのデータソースからベクトルをマッチングするタスクに向けた新しい双方向ニューラルネットワークアーキテクチャを提案します。当方針では、2つの結合されたニューラルネットワークチャンネルを使用し、ユークリッド損失を利用して2つの視点を共通の最大相関空間に射影します。我々は、相関に基づく損失とユークリッド損失との直接的な関連性を示し、これにより相関最大化のためにユークリッド損失を使用することが可能となります。一般的なユークリッド回帰最適化の問題を克服するために、バッチ正規化やドロップアウトなどの既知の手法を当問題に適用した改良を行いました。MNIST画像マッチングやFlickr8k、Flickr30kおよびCOCOデータセット上の文-画像マッチングなど、複数のコンピュータビジョンのマッチングタスクにおいて最先端の結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています