9日前

深層学習とルールベース手法を用いたPubMed全文記事における化学物質検出およびインデキシング

{Sérgio Matos, João Rafael Almeida, João Figueira Silva, Rui Antunes, Tiago Almeida}
要約

バイオメディカル科学文献における化学物質の同定は、ドラッグ開発研究において重要なタスクである。BioCreative NLM-Chemチャレンジは、全文記事内に含まれる化学物質を自動的に同定し、どの化学概念をインデックス化するかを判断する自動システムの開発を促進した。本研究では、アヴェイロ大学所属のBIT.UAチームの参加を報告する。我々は、(i) 化学物質の記述検出、(ii) エンティティ正規化、および (iii) インデックス付けの3段階からなる自動パイプラインを提案する。化学物質同定には、バイオメディカル分野向けに最適化されたBERTの変種を用いた深層学習アプローチを採用した。正規化にはルールベースのアプローチと、密度型検索機構を活用するハイブリッド手法を用い、インデックス付けにおいても2つの異なるアプローチを採用した:ルールベース法とTF-IDFに基づく手法。本チームの公式評価結果は、3つのサブタスクすべてにおいて、公式中央値およびベンチマークを上回る成績を達成しており、それぞれF1スコアは0.8454、0.8136、0.4664であった。