16日前

大規模な非構造化メディアからの有害薬物反応のマイニング

Hasham Ul Haq, Veysel Kocaman, David Talby
大規模な非構造化メディアからの有害薬物反応のマイニング
要約

薬物の有害事象(Adverse Drug Reactions/Events, ADR/ADE)は、患者の健康状態および医療コストに大きな影響を及ぼす。ADRを可能な限り早期に検出し、規制当局、製薬企業、医療提供者と共有することで、合併症の発生を防ぎ、多くの命を救うことが可能となる。しかし、多くのADRは公式な報告経路を通じて記録されず、むしろ患者のソーシャルメディア投稿、カスタマーサポート通話のトランスクリプト、医療従事者と製薬営業担当者の会議記録(CRMノート)など、さまざまな非構造化な会話文に記録されている。本論文では、こうした非構造化自由テキスト会話からADRを検出する自然言語処理(NLP)ソリューションを提案する。本手法は従来の研究と比較して3つの点で優れた成果を上げている。第一に、新たな命名エンティティ認識(Named Entity Recognition, NER)モデルにより、ADE、CADEC、SMM4Hのベンチマークデータセットにおいて、ADRおよび薬物エンティティ抽出の性能が新たなSOTA(State-of-the-Art)を達成した(各々F1スコア91.75%、78.76%、83.41%)。第二に、2つの新たな関係抽出(Relation Extraction, RE)モデルを導入した。一方はBioBERTをベースにしたアーキテクチャ、他方は全結合ニューラルネットワーク(FCNN)を用いた特徴設計を施したモデルであり、既存のSOTAモデルと同等の性能を発揮するとともに、補足的な臨床医によるアノテーション済みREデータセットを用いて訓練した場合には、それらを上回る性能を示した。第三に、会話文にADRが含まれるか否かを分類する新たなテキスト分類モデルが、CADECデータセットにおいて新たなSOTA精度(F1スコア86.69%)を達成した。本ソリューションは、Apache Sparkを基盤とするプロダクションレベルのライブラリ上で統合されたNLPパイプラインとして実装されており、ネイティブにスケーラブルであり、コンmodityクラスタ上で数百万件のバッチ処理またはストリーミングデータを処理可能な仕組みとなっている。

大規模な非構造化メディアからの有害薬物反応のマイニング | 最新論文 | HyperAI超神経