11日前

i2b2 2010における臨床情報抽出の3段階における機械学習に基づくソリューション:現状と最新動向

{Svetlana Kiritchenko, Xiaodan Zhu, Joel Martin, Berry de Bruijn, Colin Cherry}
要約

目的:臨床テキストマイニング技術の成熟に伴い、患者ケアおよび臨床研究における革新を可能にする基盤技術としての潜在力が現実のものとなりつつある。このプロセスにおける重要な要素は、現実的な臨床記述文書上で自然言語処理(NLP)手法に対する厳格なベンチマーク評価を行うことである。本論文では、カナダ国立研究評議会(NRC)が開発した3つの最先端テキストマイニングアプリケーションについて、2010年度i2b2チャレンジにおける評価結果として、その設計および性能を報告する。設計:3つのシステムは、臨床情報抽出における3つの主要なステップを実行する。すなわち、(1)退院概要および進展ノートから医療的問題、検査、治療の抽出;(2)医療的問題に関する主張(assertion)の分類;(3)医療概念間の関係の分類である。これらのタスクは、テキスト自体および外部リソース(UMLS、cTAKES、Medline)から得られる大次元の特徴量を用いた機械学習システムにより実現された。測定:各サブタスクごとに、テストデータセット上でシステムのアノテーションと真値(ground-truth)アノテーションを比較し、マイクロ平均Fスコアを用いて性能を評価した。結果:これらのシステムは、参加したすべてのシステムの中で高い順位を達成した。各タスクにおけるFスコアは以下の通りであった:概念抽出 0.8523(1位)、主張検出 0.9362(1位)、関係検出 0.7313(2位)。結論:すべてのタスクにおいて、多様な特徴量の導入が成功の鍵であったことが明らかになった。特に、機械学習アルゴリズムの選定により、特徴設計の柔軟性を確保しつつ、多数の特徴量を導入しつつも過学習を回避し、計算リソースの制約にも直面することなく、効果的なモデル構築が可能であった。

i2b2 2010における臨床情報抽出の3段階における機械学習に基づくソリューション:現状と最新動向 | 最新論文 | HyperAI超神経