背景電子カルテ(EHR)における臨床ナラティブ内の疾患関連のキーワード(変数)を特定することは、臨床現場およびバイオメディカル研究において広範な応用が期待される。これまでの研究では、臨床ナラティブにおける疾患名固有表現抽出(Disorder Named Entity Recognition, NER)および正規化(または接地、Grounding)の性能が、バイオメディカル論文に比べて劣っていることが示されている。本研究では、この性能差の原因を解明し、一般的な解決策を提示することを目的とする。方法本研究では、閉包性(closure properties)を用いて、臨床ナラティブとバイオメディカル論文における語彙の豊かさを比較した。疾患NERおよび正規化の両タスクに対して機械学習的手法を採用した。NERの手法は、豊富な特徴量を活用した線形チェーン条件付き確率場(Linear-chain Conditional Random Fields, CRF)に基づくものであり、NERシステムの語彙的知識を強化するための複数の改善を導入した。正規化手法は、臨床データにこれまで未適用であった「ペアワイズ学習による順序付け(pairwise learning to rank)」を用い、訓練データから自動的に用語の変異パターンを学習する。結果全体的な語彙サイズは臨床ナラティブとバイオメディカル論文で類似しているものの、臨床ナラティブは疾患を記述する際により豊かな用語表現を用いていることが明らかになった。本研究で提案するシステム「DNorm-C」を、最近のShARe/CLEF eHealthタスクにおける臨床ナラティブに適用した。NER(厳密なスパンのみ)において、精度(precision)= 0.797、再現率(recall)= 0.713、Fスコア = 0.753を達成した。正規化タスク(厳密なスパン+概念)では、精度 = 0.712、再現率 = 0.637、Fスコア = 0.672を達成した。本論文で提示する改善策により、NERのFスコアは0.039向上し、正規化のFスコアは0.036向上した。また、高再現率を実現するNERのバリエーションも提案し、正規化の再現率を最大0.744まで引き上げたが、それに伴い精度は低下した。議論誤差分析の結果、NERの誤りは正規化の誤りよりも4対1以上多いことが示された。特に、略語や頭字語が誤りの主要因であることが明らかになった。また、制御語彙の範囲内でアノテーターが識別できなかった表現も、誤りの原因の一つであった。結論臨床ナラティブにおける疾患の記述は、多様な用語表現を用いるため、用語の変異が顕著であり、これが臨床ナラティブにおける性能低下の一因であると考えられる。本研究では、ペアワイズ学習による順序付けがこの文脈において高い性能を発揮することを示した。さらに、語彙的な強化手法を複数導入し、その効果は他の臨床NERタスクにも一般化可能であることを示した。DNorm-Cは、臨床テキストにおける疾患抽出に高精度で対応可能なオープンソースシステムであり、多様なドメインやエンティティに適応可能なトレーニング可能なNERおよび正規化手法への有望な一歩である。(DNorm-Cはオープンソースソフトウェアであり、訓練済みモデルを含むデモサイトにて公開されている:http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm)