要約
生物医学文献の量は膨大かつ急速に増加しており、正確なテキストマイニング技術を用いることで研究者は文献から有用な情報を効率的に抽出できるようになる。しかし、tmToolやezTagなどのテキストマイニングツールで用いられている既存の名前付きエンティティ認識(NER)モデルは十分な性能を発揮できず、新たなエンティティを正確に発見することができない。また、従来のテキストマイニングツールは、複数のエンティティタイプが重複する場合(多種類名前付きエンティティ認識の結果で頻繁に観察される)を考慮していない。本研究では、神経ネットワークを用いた生物医学分野向けの名前付きエンティティ認識および多種類正規化ツール「BERN(Biomedical Entity Recognition and Normalization)」を提案する。BERNは、既知のエンティティを認識するとともに新たなエンティティを発見可能な高性能なBioBERTベースのNERモデルを採用している。さらに、重複するエンティティの種類を確率論的決定ルールに基づいて識別する手法を構築した。また、認識された各エンティティに一意の識別子を割り当てるために、複数の名前付きエンティティ正規化モデルを統合している。BERNは、PubMedの論文やプレーンテキストにおけるエンティティのタグ付けを可能にするWebサービスを提供しており、研究者はこのサービスを活用して、新たな名前付きエンティティの発見、情報検索、質問応答、関係抽出などのテキストマイニングタスクを実施できる。BERNのAPIおよびデモは、https://bern.korea.ac.kr にて公開されており、誰でも利用可能である。