2ヶ月前

BioRED: 豊富なバイオメディカル関係抽出データセット

Ling Luo; Po-Ting Lai; Chih-Hsuan Wei; Cecilia N Arighi; Zhiyong Lu
BioRED: 豊富なバイオメディカル関係抽出データセット
要約

バイオメディカル文献からの自動関係抽出(RE)は、研究および実際の設定における多くの下流テキストマイニングアプリケーションにとって重要です。しかし、現在の大部分のバイオメディカルREベンチマークデータセットは、文レベルでの単一タイプの関係(例:タンパク質-タンパク質相互作用)に焦点を当てているため、バイオメディカル分野におけるREシステムの開発が大きく制限されています。本研究では、まず一般的に使用されている固有表現認識(NER)とREデータセットをレビューします。次に、600件のPubMedアブストラクトから構成される文書レベルで複数のエンティティタイプ(例:遺伝子/タンパク質、疾患、化学物質)と関係ペア(例:遺伝子-疾患;化学物質-化学物質)を持つ、先駆的なバイオメディカルREコーパスであるBioREDを紹介します。さらに、各関係が新規な知見か既知の背景情報かをラベル付けすることで、自動アルゴリズムが新規情報と背景情報を区別できるようにしています。BioREDの有用性を評価するために、NERおよびREタスクにおいていくつかの最先端手法(BERTベースモデルなど)をベンチマークしました。結果は、既存の手法がNERタスクで高い性能を達成できること(F値89.3%)を示していますが、特に新規関係の抽出に関してはREタスクにおいて大幅な改善余地があることを示唆しています(F値47.7%)。また、当該豊富なデータセットがより正確で効率的かつ堅牢なバイオメディカルREシステムの開発を成功裏に促進できることが実験によって証明されました。BioREDデータセットと注釈ガイドラインはhttps://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/にて自由に利用可能です。

BioRED: 豊富なバイオメディカル関係抽出データセット | 最新論文 | HyperAI超神経