16 天前

BIOSSES:面向生物医学领域的语义句子相似度估计系统

{Arzucan Özgür, Hakime Öztürk, Gizem Sogancioglu}
摘要

动机:在生物医学领域,以文本形式呈现的信息量正迅速增长。因此,自然语言处理(NLP)技术在促进此类数据的检索与分析方面变得日益重要。计算句子之间的语义相似度是多项自然语言处理任务(如文本检索与摘要)中的关键环节。尽管已有多种方法被提出用于通用英语语境下的句子语义相似度估计,但我们的实验表明,这些方法在涵盖生物医学知识方面表现不足,难以有效处理生物医学文本,导致性能较差。方法:本文提出了一系列面向生物医学领域的句子级语义相似度计算方法,包括基于字符串的相似度度量方法,以及利用大规模生物医学语料库通过无监督方式学习得到的句子分布式向量表示所构建的度量方法。此外,还引入了基于本体的方法,充分利用通用本体与领域特定本体的信息。最后,构建了一种基于监督回归的模型,能够有效融合多种相似度计算指标。为评估所提出方法,我们构建了一个基准数据集,包含来自生物医学文献的100对句子,并由五位人类专家进行人工标注。结果:实验结果表明,所提出的监督式语义句子相似度计算方法取得了最佳性能,与人工标注的“黄金标准”之间的皮尔逊相关系数达到0.836,相较于当前最先进的领域无关系统,在皮尔逊相关性指标上提升了最高达42.6%。

BIOSSES:面向生物医学领域的语义句子相似度估计系统 | 最新论文 | HyperAI超神经