
要約
類似度メトリクスが与えられた場合、対照学習(contrastive learning)手法は、類似する例同士を近づけ、類似しない例同士を遠ざけるような表現(representation)を学習する。対照学習技術は、画像分類からキャプション生成に至るまで、幅広いタスクにおける表現学習に広く活用されてきた。しかし、既存の対照学習アプローチは、異なる類似関係の可能性を考慮していないため、一般化性能に欠けることがある。本論文では、複数の類似度メトリクスからの教師信号を統合的に活用することで、汎化可能な埋め込み表現を学習する新しい多類似度対照損失(Multi-Similarity Contrastive Loss, MSCon)を提案する。本手法は、対応する類似度の不確実性に基づいて、自動的に対照学習の重みを学習し、不確かなタスクの影響を低減することで、新しいタスクに対する域外一般化性能を向上させる。実証実験の結果、MSConで訓練されたネットワークは、域内および域外設定において、最先端のベースラインを上回る性能を示した。