2ヶ月前
VSE++: ハードネガティブを用いた視覚-意味埋め込みの改善
Fartash Faghri; David J. Fleet; Jamie Ryan Kiros; Sanja Fidler

要約
クロスモーダル検索のための視覚-意味埋め込みを学習する新しい手法について紹介します。ハードネガティブマイニング、構造予測におけるハードネガティブの使用、およびランキング損失関数から着想を得て、マルチモーダル埋め込みに使用される一般的な損失関数に対して単純な変更を加えました。これに微調整と拡張データの使用を組み合わせることで、検索性能に大幅な向上が見られました。我々は、MS-COCO および Flickr30K データセットを使用して、VSE++(Visual-Semantic Embeddings++)というアプローチを示し、既存手法との比較や省略研究を通じてその有効性を確認しました。MS-COCO において、我々の手法はキャプション検索で最新手法を8.8%上回り、画像検索では11.3%(R@1)の改善を達成しています。