2 个月前

利用上下文嵌入增强临床概念提取

Yuqi Si; Jingqi Wang; Hua Xu; Kirk Roberts
利用上下文嵌入增强临床概念提取
摘要

基于神经网络的表示(“嵌入”)已经显著推进了自然语言处理(NLP)任务的发展,包括临床自然语言处理任务,如概念提取。然而,最近一些更为先进的嵌入方法和表示形式(例如ELMo、BERT)进一步推动了NLP领域的最先进水平,但如何将这些表示形式整合到临床任务中尚缺乏通用的最佳实践。因此,本研究旨在探索利用这些新模型进行临床概念提取的各种可能选项,包括将其与传统的词嵌入方法(如word2vec、GloVe、fastText)进行比较。研究评估了现成的开放域嵌入以及从MIMIC-III预训练的临床嵌入。我们测试了一系列嵌入方法,包括传统的词嵌入和上下文嵌入,并在四个概念提取语料库上进行了对比:i2b2 2010、i2b2 2012、SemEval 2014和SemEval 2015。此外,我们还分析了大型语言模型(如ELMo或BERT)的预训练时间对提取性能的影响。最后,我们提出了一种直观的方法来理解上下文嵌入所编码的语义信息。在大规模临床语料库上预训练的上下文嵌入在所有概念提取任务中均达到了新的最先进水平。表现最佳的模型分别以F1值90.25、93.18(部分匹配)、80.74和81.65超越了所有现有的最先进方法。通过这些方法在临床概念提取任务中的最先进表现,我们展示了上下文嵌入的巨大潜力。此外,我们还证明了上下文嵌入能够编码传统词表示未能捕捉到的重要语义信息。