2ヶ月前

コンテキスト埋め込みを用いた臨床概念抽出の向上

Yuqi Si; Jingqi Wang; Hua Xu; Kirk Roberts
コンテキスト埋め込みを用いた臨床概念抽出の向上
要約

ニューラルネットワークに基づく表現(「埋め込み」)は、自然言語処理(NLP)タスク、特に臨床NLPタスクにおける概念抽出において、著しい進歩をもたらしました。しかし、最近ではELMoやBERTなどのより高度な埋め込み手法と表現がNLPの最先端をさらに推し進めています。それでも、これらの新しい表現を臨床タスクに統合するための一般的な最善の実践方法は確立されていません。本研究の目的は、これらの新モデルを臨床概念抽出に利用する際の可能性のあるオプションを探ることです。これには、従来の単語埋め込み手法(word2vec, GloVe, fastText)との比較も含まれます。市販のオープンドメイン埋め込みとMIMIC-IIIから事前学習された臨床埋め込みの両方を評価します。私たちは伝統的な単語埋め込みと文脈依存埋め込みからなる一連の埋め込み手法を探求し、i2b2 2010, i2b2 2012, SemEval 2014, SemEval 2015という4つの概念抽出コーパスでこれらを比較します。また、ELMoやBERTのような大規模言語モデルの事前学習時間が抽出性能に与える影響について分析します。最後に、文脈依存埋め込みが符号化する意味情報を直感的に理解する方法を提示します。大規模な臨床コーパス上で事前学習された文脈依存埋め込みは、すべての概念抽出タスクで新たな最先端性能を達成しています。最高性能を示したモデルはF1値で90.25, 93.18(部分一致)、80.74、81.65となり、すべての最先端手法を超える結果を得ました。私たちは文脈依存埋め込みが臨床概念抽出において達成する最先端性能を通じてその潜在能力を示しています。さらに、伝統的な単語表現では考慮されない貴重な意味情報を文脈依存埋め込みが符号化していることを示しています。

コンテキスト埋め込みを用いた臨床概念抽出の向上 | 最新論文 | HyperAI超神経