16日前

大規模な非構造化メディアからの有害薬物反応のマイニング

Hasham Ul Haq, Veysel Kocaman, David Talby

要約

薬物の有害事象（Adverse Drug Reactions/Events, ADR/ADE）は、患者の健康状態および医療コストに大きな影響を及ぼす。ADRを可能な限り早期に検出し、規制当局、製薬企業、医療提供者と共有することで、合併症の発生を防ぎ、多くの命を救うことが可能となる。しかし、多くのADRは公式な報告経路を通じて記録されず、むしろ患者のソーシャルメディア投稿、カスタマーサポート通話のトランスクリプト、医療従事者と製薬営業担当者の会議記録（CRMノート）など、さまざまな非構造化な会話文に記録されている。本論文では、こうした非構造化自由テキスト会話からADRを検出する自然言語処理（NLP）ソリューションを提案する。本手法は従来の研究と比較して3つの点で優れた成果を上げている。第一に、新たな命名エンティティ認識（Named Entity Recognition, NER）モデルにより、ADE、CADEC、SMM4Hのベンチマークデータセットにおいて、ADRおよび薬物エンティティ抽出の性能が新たなSOTA（State-of-the-Art）を達成した（各々F1スコア91.75%、78.76%、83.41%）。第二に、2つの新たな関係抽出（Relation Extraction, RE）モデルを導入した。一方はBioBERTをベースにしたアーキテクチャ、他方は全結合ニューラルネットワーク（FCNN）を用いた特徴設計を施したモデルであり、既存のSOTAモデルと同等の性能を発揮するとともに、補足的な臨床医によるアノテーション済みREデータセットを用いて訓練した場合には、それらを上回る性能を示した。第三に、会話文にADRが含まれるか否かを分類する新たなテキスト分類モデルが、CADECデータセットにおいて新たなSOTA精度（F1スコア86.69%）を達成した。本ソリューションは、Apache Sparkを基盤とするプロダクションレベルのライブラリ上で統合されたNLPパイプラインとして実装されており、ネイティブにスケーラブルであり、コンmodityクラスタ上で数百万件のバッチ処理またはストリーミングデータを処理可能な仕組みとなっている。