HyperAIHyperAI

Command Palette

Search for a command to run...

BioBERT: 生物医学テキストマイニング向けに事前学習された生物医学言語表現モデル

Jinhyuk Lee Wonjin Yoon Sungdong Kim Donghyeon Kim Sunkyu Kim Chan Ho So Jaewoo Kang

概要

バイオメディカルテキストマイニングは、バイオメディカルドキュメントの数が急速に増加するにつれてますます重要となっています。自然言語処理(NLP)の進歩により、バイオメディカル文献から有用な情報を抽出することが研究者たちの間で人気を博しており、深層学習は効果的なバイオメディカルテキストマイニングモデルの開発を促進しています。しかし、一般領域のコーパスからバイオメディカルコーパスへの単語分布の変化により、NLPの進歩を直接バイオメディカルテキストマイニングに適用するとしばしば満足のいく結果を得られません。本稿では、最近導入された事前学習言語モデルBERTをバイオメディカルコーパスに適応させる方法について調査します。私たちはBioBERT(Transformersによるバイオメディカルテキストマイニング用双方向エンコーダ表現)という、大規模なバイオメディカルコーパス上で事前学習された領域特化型言語表現モデルを紹介します。タスク間でほぼ同じアーキテクチャを持つBioBERTは、バイオメディカルコーパスでの事前学習によって、BERTや従来の最先端モデルよりも多くの種類のバイオメディカルテキストマイニングタスクで大幅に優れた性能を示します。BERTは従来の最先端モデルと同等の性能を達成していますが、BioBERTは以下の3つの代表的なバイオメディカルテキストマイニングタスクにおいて著しく優れています:バイオメディカル固有表現認識(F1スコア0.62%向上)、バイオメディカル関係抽出(F1スコア2.80%向上)、およびバイオメディカル質問応答(MRR 12.24%向上)。私たちの分析結果は、バイオメディカルコーパスでの事前学習がBERTに複雑なバイオメディカルテキストを理解するのに役立つことを示しています。私たちはBioBERTの事前学習済み重みをhttps://github.com/naver/biobert-pretrainedで自由に利用可能として提供し、BioBERTの微調整用ソースコードをhttps://github.com/dmis-lab/biobertで提供しています


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています