2 个月前
基于邻域对比学习的科学文献表示方法及其引文嵌入
Malte Ostendorff; Nils Rethmeier; Isabelle Augenstein; Bela Gipp; Georg Rehm

摘要
通过对比学习目标,可以显著提高科学文档表示的学习效果,其中的挑战在于创建能够编码所需相似度语义的正样本和负样本。以往的研究依赖离散的引用关系来生成对比样本。然而,离散的引用关系强制设定了相似度的硬性截止点,这与基于相似度的学习相悖,并且忽略了即使没有直接引用的情况下,科学论文之间也可能非常相似——这是寻找相关研究的核心问题之一。为此,我们采用了在引用图嵌入上进行受控最近邻采样的方法来进行对比学习。这种控制使我们能够学习连续的相似度,采样难以学习的负样本和正样本,并通过控制它们之间的采样间隔来避免负样本和正样本之间的冲突。所提出的方法SciNCL在SciDocs基准测试中超越了现有最先进的方法。此外,我们还证明了该方法能够在少量样本的情况下高效训练(或微调)模型,并且可以与近期高效的训练方法结合使用。令人惊讶的是,即使以这种方式训练一个通用领域的语言模型,其性能也超过了领域内预训练的基线模型。