17日前
臨床ノートからのオントロジーおよび弱教師付き学習を用いた希少疾患の同定
Hang Dong, Víctor Suárez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu

要約
臨床ノートから自然言語処理(NLP)を用いて希少疾患を同定することは、機械学習に利用可能な症例数が限られていること、および臨床専門家によるデータのアノテーションが必要であるため、困難である。本研究では、オントロジーと弱教師付き学習(weak supervision)を活用する手法を提案する。本手法は以下の2段階から構成される:(i)Text-to-UMLS:臨床テキスト中の記述を統合医療用語体系(UMLS)の概念にリンクするプロセス。この段階では、名前付きエンティティリンクツール(例:SemEHR)と、カスタマイズされたルールおよびBidirectional Encoder Representations from Transformers(BERT)に基づく文脈表現を用いた弱教師付き学習を組み合わせる。(ii)UMLS-to-ORDO:UMLSの概念をOrphanet希少疾患オントロジー(ORDO)に存在する希少疾患にマッピングするプロセス。米国MIMIC-IIIデータセットの集中治療室退院サマリーを事例として用いて、臨床専門家のアノテーションデータを一切用いずに、弱教師付き学習を導入することでText-to-UMLSプロセスの性能が大幅に向上することを示した。解析の結果、この全体プロセスにより、病院入院記録における手動によるICDコードではほとんど捕捉されていない希少疾患の症例が抽出可能であることが明らかになった。