9日前

深層学習とヒューリスティックスを用いたPubMedフルテキスト記事における化学物質の同定とインデックス付け

{Sérgio Matos, João R. Almeida, João F. Silva, Rui Antunes, Tiago Almeida}
要約

医薬品開発研究における重要性から、文献中の化学物質の同定は、バイオメディカル分野の科学者たちの間で大きな関心を集めている。これまでの多くの研究は、PubMedの抄録(abstract)に焦点を当ててきたが、全文(full-text)ドキュメントにはさらに価値ある情報が含まれており、それらを活用したさらなる調査が求められている。これらの文献にMedical Subject Headings(MeSH)語を手動でインデックス付けすることは、研究者が自身の研究に最も関連性の高い論文を効率的に発見する上で重要な役割を果たす。BioCreative VII NLM-Chemトラックは、PubMedの全文記事における化学物質同定およびインデックス付けのためのシステム開発を促進した。化学物質同定とは、化学物質の記述(mention)を特定し、それらを一意のMeSH識別子と関連付けるプロセスを指す。本論文では、当研究チームの参加システムおよびコンテスト後の改良点について報告する。我々は、化学物質記述の検出、エンティティ正規化、インデックス付けの3段階パイプラインを提案する。化学物質同定のためには、PubMedBERTを用いた文脈に基づく埋め込み表現を活用し、多層パーセプトロン(MLP)と条件付き確率場(CRF)タギング層を組み合わせたディープラーニング手法を採用した。正規化手法については、スィーブ(sieve)ベースの辞書フィルタリングを用い、その後、ディープラーニングを活用した類似度検索戦略を適用した。インデックス付けの面では、各文献に対してより関連性の高いMeSHコードを特定するためのルールを独自に開発した。コンテスト期間中の評価では、化学物質記述認識タスクではやや低い性能であったものの、正規化およびインデックス付けタスクにおいては最良の公式成績を達成した。コンテスト終了後、命名エンティティ認識(NER)モデルに新たな技術を導入することで性能を向上させ、最終的なシステムでは、化学物質同定タスクで0.8731、正規化タスクで0.8275、インデックス付けタスクで0.4849というスコアを達成した。本研究で使用した実験の再現およびパイプラインの実行に必要なコードは、公開されている。データベースURL: https://github.com/bioinformatics-ua/biocreativeVII_track2