CollaboNet: 深層ニューラルネットワークの協調によるバイオメディカルネームドエンティティ認識

背景バイオメディカルテキストマイニングにおいて、バイオメディカル固有表現の識別は最も重要なタスクの一つである。最近では、深層学習に基づく手法がバイオメディカル固有表現認識(BioNER)に適用され、有望な結果を示している。しかし、深層学習手法は大量の訓練データを必要とするため、データ不足が性能を阻害する可能性がある。BioNERデータセットは希少なリソースであり、各データセットは実体タイプの小さな部分集合しかカバーしていない。さらに、多くの生物実体は多義語であることがあり、これは固有表現認識における主要な障壁の一つとなっている。結果データ不足と実体型誤分類問題に対処するために、私たちは複数のNERモデルを組み合わせて利用するCollaboNetを提案する。CollaboNetでは、異なるデータセットで訓練されたモデルが互いに接続され、対象モデルが他の協力者モデルから情報を取得することで偽陽性を削減する。各モデルは対象実体型の専門家であり、訓練中には対象モデルと協力者モデルとして交互に機能する。実験結果によると、CollaboNetは偽陽性や多義語を含む誤分類された実体の数を大幅に削減できることを示している。CollaboNetは精度(Precision)、再現率(Recall)、F1スコアにおいて最先端の性能を達成した。結論私たちは複数のモデルを組み合わせることによるBioNERの利点を示した。私たちのモデルは、異なる実体型に対して注釈された複数のデータセットを利用することで誤分類された実体の数を成功裏に削減し、性能向上につなげている。私たちのモデルが最先端の性能を達成していることを考慮に入れれば、CollaboNetは生物実体関係抽出などの下流バイオメディカルテキストマイニングアプリケーションの精度向上に貢献できると考えている。