17日前

バイオメディカル関係抽出手法およびモデルの比較:知識グラフ構築における応用

Nikola Milosevic, Wolfgang Thielemann
バイオメディカル関係抽出手法およびモデルの比較:知識グラフ構築における応用
要約

生物医学研究は指数関数的なスピードで進展しており、研究者や専門家たちがこの分野で発表される文献の量に追いつくことが難しくなっている。文献に記載された知識は、主張や仮説を容易に検索・アクセス・検証できるように体系化される必要がある。知識グラフは、文献から得られる意味的知識を表現するための適切な枠組みを提供する。しかし、知識グラフを構築するためには、生物医学的エンティティ間の関係を抽出し、エンティティおよび関係の種類を正規化する必要がある。本論文では、スケーラブルな生物医学文献からの関係抽出を実現するための、ルールベースおよび機械学習ベースの手法(従来型機械学習としてナイーブベイズ、ランダムフォレストを例にし、現代の深層学習トランスフォーマーとしてDistilBERT、PubMedBERT、T5、SciFiveベースのモデルを例に挙げる)を提示・比較する。また、これらの手法が不均衡かつ比較的小規模なデータセットに対してどれほど頑健であるかを検討する。実験の結果、トランスフォーマーに基づくモデルは、大規模なデータセットでの事前学習により、小規模なデータセットおよび不均衡なデータセットの両方を良好に処理できることが示された。最も高い性能を示したのは、バランスの取れたデータ上で微調整されたPubMedBERTベースのモデルで、報告されたF1スコアは0.92であった。次いでDistilBERTベースのモデルがF1スコア0.89を達成し、処理速度が速く、リソース消費も少ないという利点を有した。一方、BERTベースのモデルは、生成型モデルであるT5ベースのモデルよりも優れた性能を示した。