
摘要
近年来,自然语言处理(NLP)领域预训练策略的进展显著提升了模型在各类文本挖掘任务中的性能。本文采用ELECTRA提出的“被替换标记检测”(Replaced Token Detection, RTD)预训练技术,基于生物医学文本与词汇表从零开始预训练一个生物医学领域语言模型。我们提出了BioELECTRA,这是一种专为生物医学领域设计的语言编码器模型,旨在将ELECTRA框架适配至生物医学应用场景。我们在BLURB与BLUE两个生物医学NLP基准测试集上对模型进行了评估。结果显示,BioELECTRA在BLURB基准测试的全部13个数据集上均超越先前模型,达到当前最优(State-of-the-Art, SOTA)水平;在BLUE基准测试的全部4个临床相关数据集上,同样在7项不同NLP任务中取得SOTA表现。此外,基于PubMed与PMC全文文章预训练的BioELECTRA,在临床数据集上也表现出色。具体而言,BioELECTRA在MedNLI数据集上取得86.34%的准确率,较此前最优模型提升1.39个百分点;在PubMedQA数据集上达到64%的准确率,较之前最佳结果提升2.98个百分点,均创下新的SOTA纪录。