
要約
画像とテキストのマッチングの鍵となる点は、視覚的入力とテキスト的入力の類似度を正確に測定する方法にある。深層のクロスモーダル埋め込みと双方向ランキング損失を組み合わせる手法において、大きな進展が見られたものの、実用的な応用において有用なトリプレットを抽出する戦略の開発や、適切なマージンの選定という課題は依然として残っている。本研究では、識別的な画像-テキスト埋め込みを学習するための、クロスモーダル投影マッチング(CMPM)損失とクロスモーダル投影分類(CMPC)損失を提案する。CMPM損失は、ミニバッチ内に含まれるすべての正例および負例を用いて定義された正規化されたマッチング分布と、投影適合性分布との間のKLダイバージェンスを最小化する。一方、CMPC損失は、改善されたノルム-ソフトマックス損失を用いて、一方のモダリティの表現ベクトルを他方のモダリティに投影する際の分類を試み、各クラスの特徴の凝縮性をさらに高める。複数のデータセットにおける広範な分析および実験により、提案手法の優位性が実証された。