双方向畳み込み画像-テキスト埋め込みとインスタンス損失

画像と文章のマッチングには、両方のモダリティに対する細かい理解が求められます。本論文では、画像とテキストを共有する視覚-言語空間に差別的に埋め込む新しいシステムを提案します。この分野では、既存の多くの研究が順位損失(ranking loss)を用いて正例の画像/テキストペアを引き寄せ、負例のペアを互いに離す手法を採用しています。しかし、順位損失を直接適用することはネットワーク学習にとって困難です。これは、異なる特徴量からモーダル間の関係性を構築しようとするためです。この問題に対処するために、我々は明示的にモーダル内データ分布を考えるインスタンス損失(instance loss)を提案します。これは、各画像/テキストグループがクラスとして見なされるという無監督的な仮定に基づいています。したがって、ネットワークは各画像/テキストグループから微細な粒度を学ぶことができます。実験結果は、インスタンス損失が順位損失に対してより良い重み初期化を提供し、より差別的な埋め込みが学べることを示しています。また、既存の研究では一般的に事前学習済みの特徴量(word2vecや固定された視覚特徴量など)を使用しています。そこで本論文では小さな貢献として、画像とテキスト表現を学ぶエンドツーエンドの双方向畳み込みニューラルネットワーク(dual-path convolutional network)を構築しました。エンドツーエンド学習により、システムはデータから直接学び、教師あり学習を完全に活用することができます。2つの汎用検索データセット(Flickr30kおよびMSCOCO)での実験結果は、我々の方法が最先端技術と比較して競争力のある精度を持つことを示しています。さらに、言語ベースの人検索においても大幅な改善を達成しました。本研究で使用したコードは公開されています。