背景在电子健康记录(Electronic Health Records, EHR)的临床文本中识别关键变量(如疾病术语)在临床实践和生物医学研究中具有广泛的应用价值。以往研究表明,相较于生物医学文献,疾病命名实体识别(Disorder Named Entity Recognition, NER)及实体归一化(或称实体定位,Grounding)在临床文本中的性能显著降低。本文旨在探究这一性能差异的根本原因,并提出具有普适性的解决方案。方法我们利用闭包性质(closure properties)比较临床文本与生物医学文献在词汇丰富度方面的差异。针对疾病NER与归一化任务,均采用机器学习方法进行建模。我们的NER方法基于线性链条件随机场(Linear-chain Conditional Random Fields, CRF),并引入丰富的特征表示以增强系统的词汇知识。此外,我们提出一种此前未应用于临床数据的归一化方法,采用成对学习排序(Pairwise Learning to Rank)技术,直接从训练数据中自动学习术语变体模式。结果研究发现,尽管临床文本与生物医学文献的整体词汇量相近,但临床文本在描述疾病时使用了更为丰富的术语体系,表现出更高的术语变异性。我们将所提出的系统DNorm-C应用于近期ShARe/CLEF eHealth任务中的临床文本,用于定位疾病提及。在NER任务(严格按跨度匹配)中,系统达到精确率(precision)= 0.797,召回率(recall)= 0.713,F1值 = 0.753;在归一化任务(严格按跨度+概念匹配)中,精确率 = 0.712,召回率 = 0.637,F1值 = 0.672。本文所提出的改进措施使NER的F1值提升0.039,归一化F1值提升0.036。此外,我们还设计了一种高召回率版本的NER模块,可将归一化召回率提升至最高0.744,但相应地略微降低了精确率。讨论我们进行了误差分析,结果表明NER错误数量远超归一化错误,比例超过4:1。常见错误原因包括缩写与首字母缩略词的误识别,以及标注者在受控词汇表范围内未能识别的术语表达。结论临床文本中疾病提及使用的术语体系高度丰富,导致术语变体显著增加,我们认为这是造成临床文本中NER与归一化性能下降的主要原因之一。本研究证明,成对学习排序在该场景下具有优异表现,并提出若干可推广至其他临床NER任务的词汇增强策略,有效提升了系统对术语变体的处理能力。DNorm-C是一个高性能、开源的临床文本疾病识别系统,标志着迈向可训练于多种领域与实体类型的NER与归一化方法的重要一步。(DNorm-C为开源软件,已提供训练好的模型,可通过DNorm演示网站访问:http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm。)