2ヶ月前

BioFLAIR: 生物医学シーケンスラベリングタスクのための事前学習済みプーリングコンテキスト埋め込み

Shreyas Sharma; Ron Daniel Jr
BioFLAIR: 生物医学シーケンスラベリングタスクのための事前学習済みプーリングコンテキスト埋め込み
要約

バイオメディカルな名詞認識(NER)は、文脈外の用語の広範な曖昧さと豊富な語彙変異のために、バイオメディカル情報処理における難問となっています。BERT、GPT、XLNetなどの進歩により、bioNERベンチマークでの性能は引き続き向上しています。FLAIR (1) は、前述のモデルに比べて計算負荷が少ない代替的な埋め込みモデルです。私たちはFLAIRとその事前学習済みのPubMed埋め込み(これをBioFLAIRと呼ぶ)を様々なbio NERタスクでテストし、それらをBERT型ネットワークの結果と比較しました。また、PubMedコンテンツに対する少量の追加事前学習の効果や、FLAIRとELMOモデルの組み合わせについても調査しました。結果として、提供された埋め込みを使用した場合、FLAIRはBERTネットワークと同等の性能を示し、あるベンチマークでは新たな最先端の成果を達成しました。追加的事前学習は明確な利点をもたらさなかったものの、より多くの事前学習が行われれば状況が変わる可能性があります。FLAIR埋め込みを他の埋め込みと組み合わせることで、通常はベンチマーク結果に改善が見られました。