
要約
三重項損失(triplet loss)は、距離メトリック学習において極めて一般的なアプローチである。同一クラスに属する画像の表現は、異なるクラスに属する画像の表現よりも、埋め込み空間内での距離が小さくなるように最適化される。三重項損失に関する多くの研究では、学習に最も有効な三重項(画像の組み合わせ)を選択することに注力しており、同じクラス内での類似度が低いサンプルや、異なるクラス間で類似度が高いサンプルを選び出す戦略が用いられている。これまでの研究のコンセンサスとして、最も「難しい」負例(hard negative)を用いた最適化は、訓練の挙動を悪化させることが知られている。これは深刻な問題である。なぜなら、これらの「難しい」負例とは、距離メトリックが意味的類似性を正しく捉えられていないケースそのものだからである。本論文では、三重項の空間構造を詳細に分析し、なぜハードネガティブ例が三重項損失の学習を失敗に導くのかを理論的に解明する。さらに、損失関数に対する単純な修正を提案し、この修正によりハードネガティブ例を用いた最適化が実現可能となることを示す。このアプローチにより、より汎化性能に優れた特徴量が得られ、クラス内変動が大きいデータセットにおいて、従来の最先端手法を上回る画像検索性能を達成することが可能となる。