
膨大なバイオメディカル文献およびデジタル臨床記録の増加に伴い、非構造化データ内のエンティティを単に特定するだけでなく、意味的に関連付けることができるテキストマイニング技術の需要が高まっている。本論文では、名前付きエンティティ抽出(Named Entity Recognition, NER)および関係抽出(Relation Extraction, RE)モデルを組み合わせたテキストマイニングフレームワークを提案する。このフレームワークは、従来の研究を三つの点で拡張している。第一に、精度最適化を目的としたBioBERTベースのREモデルと、全結合ニューラルネットワーク(FCNN)を用いた特徴設計に基づく高速化を図ったREモデルの2つの新規アーキテクチャを導入した。第二に、これらのモデルを公開ベンチマークデータセット上で評価し、以下の5つのタスクにおいて、それぞれ新たなSOTA(最先端)のF1スコアを達成した:2012年i2b2臨床時系列関係チャレンジ(F1 73.6、前SOTA比+1.2%)、2010年i2b2臨床関係チャレンジ(F1 69.1、+1.2%)、2019年フェノタイプ-遺伝子関係データセット(F1 87.9、+8.5%)、2012年有害薬物イベント(ADE)薬物-反応データセット(F1 90.0、+6.3%)、2018年n2c2ポゾロジー関係データセット(F1 96.7、+0.6%)。第三に、本フレームワークの実用的応用例として、バイオメディカル知識グラフの構築および臨床コードへのエンティティマッピング精度の向上を示した。本システムは、プロダクションレベルの性能を備え、ネイティブにスケーラブルで、ハードウェア最適化された、トレーニング可能かつチューニング可能なNLPフレームワークを提供するSpark NLPライブラリを基盤として構築されている。