
摘要
本文提出了SimCSE,一种简洁的对比学习框架,显著提升了句子嵌入(sentence embeddings)的当前技术水平。我们首先介绍了一种无监督方法:该方法以输入句子为输入,在对比学习目标下预测自身,仅使用标准的Dropout作为噪声。这一简单方法表现令人惊讶地出色,其性能与此前的监督式方法相当。我们发现,Dropout起到了最小程度的数据增强作用,若将其移除,则会导致表示空间的坍缩(representation collapse)。随后,我们提出了一种监督式方法,通过在对比学习框架中引入自然语言推理数据集中的标注样本,将“蕴含”(entailment)对作为正样本,将“矛盾”(contradiction)对作为困难负样本(hard negatives)。我们在标准的语义文本相似性(Semantic Textual Similarity, STS)任务上对SimCSE进行了评估,基于BERT-base的无监督与监督模型分别取得了76.3%和81.6%的Spearman相关系数,相较于此前最优结果分别提升了4.2%和2.2%。此外,我们从理论和实证两个层面证明,对比学习目标能够对预训练嵌入的各向异性空间进行正则化,使其分布更加均匀;在存在监督信号时,还能更有效地对齐正样本对。