8 个月前

摘要

随着生物医学文献数量的迅速增长，生物医学文本挖掘变得越来越重要。随着自然语言处理（NLP）的进步，从生物医学文献中提取有价值的信息在研究人员中变得越来越受欢迎，而深度学习则推动了高效生物医学文本挖掘模型的发展。然而，直接将NLP领域的进展应用于生物医学文本挖掘通常会因普通领域语料库与生物医学语料库之间的词汇分布差异而产生不令人满意的结果。本文研究了最近引入的预训练语言模型BERT如何适应生物医学语料库。我们介绍了BioBERT（用于生物医学文本挖掘的双向编码器表示模型），这是一种基于大规模生物医学语料库预训练的领域特定语言表示模型。在几乎相同的任务架构下，当在生物医学语料库上进行预训练时，BioBERT在多种生物医学文本挖掘任务中显著优于BERT和之前的最先进模型。尽管BERT的表现与之前的最先进模型相当，但BioBERT在这三个具有代表性的生物医学文本挖掘任务中显著超越了它们：生物医学命名实体识别（F1分数提高0.62%）、生物医学关系抽取（F1分数提高2.80%）和生物医学问题回答（MRR提高12.24%）。我们的分析结果表明，在生物医学语料库上预训练BERT有助于其理解复杂的生物医学文本。我们已将BioBERT的预训练权重免费提供于https://github.com/naver/biobert-pretrained，并将用于微调BioBERT的源代码提供于https://github.com/dmis-lab/biobert。

源 PDF