Command Palette

Search for a command to run...

4ヶ月前

深層学習とヒューリスティックスを用いたPubMedフルテキスト記事における化学物質の同定とインデックス付け

{Sérgio Matos João R. Almeida João F. Silva Rui Antunes Tiago Almeida}

要約

医薬品開発研究における重要性から、文献中の化学物質の同定は、バイオメディカル分野の科学者たちの間で大きな関心を集めている。これまでの多くの研究は、PubMedの抄録(abstract)に焦点を当ててきたが、全文(full-text)ドキュメントにはさらに価値ある情報が含まれており、それらを活用したさらなる調査が求められている。これらの文献にMedical Subject Headings(MeSH)語を手動でインデックス付けすることは、研究者が自身の研究に最も関連性の高い論文を効率的に発見する上で重要な役割を果たす。BioCreative VII NLM-Chemトラックは、PubMedの全文記事における化学物質同定およびインデックス付けのためのシステム開発を促進した。化学物質同定とは、化学物質の記述(mention)を特定し、それらを一意のMeSH識別子と関連付けるプロセスを指す。本論文では、当研究チームの参加システムおよびコンテスト後の改良点について報告する。我々は、化学物質記述の検出、エンティティ正規化、インデックス付けの3段階パイプラインを提案する。化学物質同定のためには、PubMedBERTを用いた文脈に基づく埋め込み表現を活用し、多層パーセプトロン(MLP)と条件付き確率場(CRF)タギング層を組み合わせたディープラーニング手法を採用した。正規化手法については、スィーブ(sieve)ベースの辞書フィルタリングを用い、その後、ディープラーニングを活用した類似度検索戦略を適用した。インデックス付けの面では、各文献に対してより関連性の高いMeSHコードを特定するためのルールを独自に開発した。コンテスト期間中の評価では、化学物質記述認識タスクではやや低い性能であったものの、正規化およびインデックス付けタスクにおいては最良の公式成績を達成した。コンテスト終了後、命名エンティティ認識(NER)モデルに新たな技術を導入することで性能を向上させ、最終的なシステムでは、化学物質同定タスクで0.8731、正規化タスクで0.8275、インデックス付けタスクで0.4849というスコアを達成した。本研究で使用した実験の再現およびパイプラインの実行に必要なコードは、公開されている。データベースURL: https://github.com/bioinformatics-ua/biocreativeVII_track2

ベンチマーク

ベンチマーク方法論指標
chemical-indexing-on-bc7-nlm-chemRule-based
F1-score (strict): 0.4849
entity-linking-on-bc7-nlm-chemSieve-based+SapBERT
F1-score (strict): 0.8275
named-entity-recognition-on-bc7-nlm-chemPubMedBERT+MLP+CRF
F1-score (strict): 0.8731

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
深層学習とヒューリスティックスを用いたPubMedフルテキスト記事における化学物質の同定とインデックス付け | 論文 | HyperAI超神経