オントロジー駆動型かつ弱教師ありの臨床ノートからの希少疾患同定

計算言語的テキスト表型解析(computational text phenotyping)とは、臨床ノートから特定の疾患や特徴を持つ患者を同定する手法である。希少疾患は、機械学習に利用可能な症例数が少なく、ドメイン専門家によるデータのラベル付けが必要なため、同定が困難である。本研究では、オントロジーと弱教師付き学習(weak supervision)を組み合わせた手法を提案する。この手法は、双方向トランスフォーマー(例:BERT)に基づく最近の事前学習済みコンテキスト表現を活用している。オントロジーに基づくフレームワークは以下の2段階からなる:(i) Text-to-UMLS段階では、臨床テキスト中の記載事項を統合医療用語体系(UMLS)の概念に文脈的にリンクする。このために、命名エンティティ認識およびリンク(NER+L)ツール「SemEHR」を用い、カスタマイズされたルールとコンテキストに基づく表記表現を用いた弱教師付き学習を導入する。 (ii) UMLS-to-ORDO段階では、UMLSの概念をOrphanet希少疾患オントロジー(ORDO)に存在する希少疾患と照合する。本研究で提案する弱教師付きアプローチは、ドメイン専門家によるラベル付きデータを用いずに、表型確認モデルを学習することで、Text-to-UMLSリンクの精度を向上させるものである。本手法は、米国と英国の2施設から得られた3つの臨床データセット(MIMIC-IIIの退院要約、MIMIC-IIIのレントゲン報告書、NHS Taysideの脳画像報告書)を用いて評価された。評価結果では、Text-to-UMLSリンクの精度が顕著に向上し、既存のNER+Lツール「SemEHR」に対して、絶対値で30%~50%の向上が確認された一方、リコールはほぼ損なわれなかった。MIMIC-IIIおよびNHS Taysideのレントゲン報告書に関する結果は、退院要約と一貫した傾向を示した。全体として、臨床ノートを処理する本パイプラインは、従来の構造化データ(手動で割り当てられたICDコード)ではほとんど捕捉されていない希少疾患の症例を抽出可能である。本研究では、弱教師付き学習アプローチの有用性について議論し、今後の研究方向性を提案する。