
摘要
近年来,对比学习(contrastive learning)在计算机视觉和信息检索等多个任务中显著推动了技术前沿的发展。本海报首次将监督式对比学习(supervised contrastive learning)应用于电子商务中的商品匹配任务,所使用的数据来自不同电商平台的商品报价信息。具体而言,我们采用监督式对比学习方法对Transformer编码器进行预训练,随后利用成对样本训练数据对该编码器进行微调,以完成商品匹配任务。此外,我们提出了一种“源感知采样策略”(source-aware sampling strategy),使得对比学习能够应用于训练数据中不包含商品标识符的场景。实验结果表明,结合监督式对比预训练与源感知采样策略,在多个广泛使用的基准数据集上显著提升了当前最优性能:在Abt-Buy数据集上,F1分数达到94.29,较之前最优结果提升3.24;在Amazon-Google数据集上,F1分数达到79.28,提升3.7;在WDC Computers数据集中,F1分数提升介于0.8至8.84之间,具体提升幅度取决于训练集规模。进一步的实验还考察了数据增强与自监督对比预训练的效果,结果表明,数据增强对小规模训练集具有一定帮助,而自监督对比预训练则因数据中固有的标签噪声导致性能显著下降。因此,我们得出结论:在存在明确监督信号的场景下,对比预训练在商品匹配任务中具有巨大应用潜力。