
近年、対照学習(contrastive learning)はコンピュータビジョンおよび情報検索分野における多数のタスクにおいて、性能の上限を大きく引き上げてきた。本ポスターは、異なる電子商取引(e-コマース)サイトの商品オファーを用いて、e-コマースにおける商品マッチングタスクに教師付き対照学習を適用した初めての研究である。具体的には、Transformerエンコーダを教師付き対照学習により事前学習し、その後、ペアワイズの学習データを用いて微調整(fine-tuning)することでマッチングタスクに適応している。さらに、商品識別子(product identifiers)を含まない学習データを対象としたユースケースにおいても対照学習を適用可能にする「ソースに配慮したサンプリング戦略」を提案した。実験の結果、教師付き対照学習とソースに配慮したサンプリングを組み合わせることで、広く用いられる複数のベンチマークにおいて、従来の最先端性能を顕著に上回ることが示された。Abt-BuyデータセットではF1スコア94.29(前例比+3.24)、Amazon-Googleでは79.28(+3.7)を達成した。WDC Computersデータセットにおいては、学習データサイズに応じてF1スコアで+0.8~+8.84の改善が確認された。さらに、データ拡張(data augmentation)および自己教師付き対照学習による事前学習の実験を行った結果、データ拡張は小さな学習データセットにおいて有益である一方で、自己教師付き対照学習は固有のラベルノイズの影響により性能が著しく低下することが明らかになった。以上の結果から、明示的な教師情報が利用可能な商品マッチングのユースケースにおいて、対照学習による事前学習は非常に高い潜在能力を有すると結論づけられる。