
要約
固有表現認識(Named Entity Recognition: NER)は、自然言語処理の広範な適用範囲を持つタスクであり、質問応答、トピックモデリング、情報検索などの構成要素となっています。医療分野では、NERが臨床記録や報告書から意味のある断片を抽出する役割を果たし、その後のアサーション状態検出、エンティティ解決、関係抽出、および匿名化などの下流タスクに供給されます。Apache Spark上でBi-LSTM-CNN-Char深層学習アーキテクチャを再実装することで、BERTのような重いコンテキスト埋め込みを使用せずに7つの公開バイオメディカルベンチマークで新しい最先端の結果を達成する単一の学習可能なNERモデルを提示します。これにはBC4CHEMDの精度向上(93.72%、4.1%の改善)、Species800(80.91%、4.6%の改善)、JNLPBA(81.29%、5.2%の改善)が含まれます。さらに、このモデルはオープンソースのSpark NLPライブラリの一環として製品グレードのコードベースで自由に利用可能であり;任意のSparkクラスターでの学習と推論にスケールアップできます;GPUサポートとPython, R, Scala, Javaなどの人気のあるプログラミング言語用ライブラリが提供されています;またコード変更なしで他の人間言語への拡張も可能です。