BioBERT: 生物医学テキストマイニング向けに事前学習された生物医学言語表現モデル

バイオメディカルテキストマイニングは、バイオメディカルドキュメントの数が急速に増加するにつれてますます重要となっています。自然言語処理(NLP)の進歩により、バイオメディカル文献から有用な情報を抽出することが研究者たちの間で人気を博しており、深層学習は効果的なバイオメディカルテキストマイニングモデルの開発を促進しています。しかし、一般領域のコーパスからバイオメディカルコーパスへの単語分布の変化により、NLPの進歩を直接バイオメディカルテキストマイニングに適用するとしばしば満足のいく結果を得られません。本稿では、最近導入された事前学習言語モデルBERTをバイオメディカルコーパスに適応させる方法について調査します。私たちはBioBERT(Transformersによるバイオメディカルテキストマイニング用双方向エンコーダ表現)という、大規模なバイオメディカルコーパス上で事前学習された領域特化型言語表現モデルを紹介します。タスク間でほぼ同じアーキテクチャを持つBioBERTは、バイオメディカルコーパスでの事前学習によって、BERTや従来の最先端モデルよりも多くの種類のバイオメディカルテキストマイニングタスクで大幅に優れた性能を示します。BERTは従来の最先端モデルと同等の性能を達成していますが、BioBERTは以下の3つの代表的なバイオメディカルテキストマイニングタスクにおいて著しく優れています:バイオメディカル固有表現認識(F1スコア0.62%向上)、バイオメディカル関係抽出(F1スコア2.80%向上)、およびバイオメディカル質問応答(MRR 12.24%向上)。私たちの分析結果は、バイオメディカルコーパスでの事前学習がBERTに複雑なバイオメディカルテキストを理解するのに役立つことを示しています。私たちはBioBERTの事前学習済み重みをhttps://github.com/naver/biobert-pretrainedで自由に利用可能として提供し、BioBERTの微調整用ソースコードをhttps://github.com/dmis-lab/biobertで提供しています。