
生物医学词嵌入(biomedical word embeddings)通常通过神经网络方法在自由文本语料库上进行预训练,以捕捉词汇的局部与全局分布特性。在下游任务中,这些嵌入常被集成到各种神经网络架构中,以优化特定任务目标,而这些架构在实际应用中还可进一步微调嵌入表示。然而,自2018年以来,研究趋势明显从静态嵌入转向上下文感知嵌入(contextual embeddings),这一转变主要受到语言模型(如ELMo、基于Transformer的BERT,以及ULMFiT)的推动。这类动态嵌入能够根据上下文区分同音异义词和缩略词,从而提升语义表达的准确性。尽管如此,在资源受限的场景(如智能设备、物联网组件)中,静态嵌入依然具有重要应用价值,同时在计算语言学视角下,它们仍是研究词汇语义结构的重要工具。本文提出一种联合学习词向量与概念向量的方法:首先采用Skip-gram模型生成初始嵌入,随后利用生物医学引文中共现的医学主题词(Medical Subject Heading, MeSH)概念之间的相关性信息对嵌入进行进一步微调。该微调过程基于BERT Transformer架构,采用双句子输入模式,并设定分类任务目标,以捕捉MeSH概念对的共现关系。本质上,本研究将原本用于生成动态嵌入的Transformer架构重新应用于静态嵌入的优化,通过引入概念间的相关性信息来提升其表达能力。我们使用多个先前研究构建的词相关性数据集,对所获得的优化后静态嵌入进行了全面评估。与以往研究中通过选择性剔除概念和术语以提升性能的做法不同,本文未进行此类筛选,因而提供了迄今为止最全面的静态嵌入评估,且在各项指标上均展现出显著的性能提升。为促进后续研究与应用,我们已将代码及生成的嵌入向量公开发布,供学术界和工业界使用:https://github.com/bionlproc/BERT-CRel-Embeddings