18 天前

预训练嵌入输出的语义增强用于无监督信息检索

{Giorgos Stamou, Chrysoula Zerva, Alexios Mandalios, Konstantinos Thomas, Giorgos Filandrianos, Edmund Dervakos}
预训练嵌入输出的语义增强用于无监督信息检索
摘要

生物医学与临床领域科学文献的迅猛增长,极大地增加了研究人员及其他从业者识别相关信息的难度。更为重要的是,新主题与新发现的快速涌现,常常导致监督式方法性能下降,其根本原因在于缺乏相关标注数据。全球新冠疫情的爆发进一步凸显了迫切需要以快速高效的方式查询并探索科学文献中的未知领域。本文探讨了利用SNOMED-CT对深度Transformer架构进行语义增强的潜力,以实现对用户查询的无监督式回答。我们提出的系统旨在对最初基于BERT模型检索出的相关文档进行过滤与重排序。为此,我们通过引入SNOMED-CT概念对查询和文档进行增强,并在此基础上施加概念共现性约束作为过滤条件。我们在OHSUMED数据集上评估了该方法,结果表明其具备具有竞争力的性能。此外,本文还介绍了该方法向完整论文场景拓展的策略,例如应用于Kaggle的CORD-19全文数据集挑战任务。