11 天前
BioBART:一种生物医学生成式语言模型的预训练与评估
Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, Sheng Yu

摘要
预训练语言模型已成为自然语言处理领域的重要基础架构。近年来,领域内预训练方法在各类特定领域的下游任务中展现出显著优势。在生物医学领域,自然语言生成(Natural Language Generation, NLG)任务具有至关重要的意义,但相关研究仍相对不足。在通用领域,通过约束性语言生成或语言提示(language prompting)将自然语言理解(Natural Language Understanding, NLU)任务转化为NLG任务,已取得令人满意的性能表现。然而,当前生物医学领域仍缺乏专门的生成式语言模型,且下游生成任务的评估基准体系尚不系统,严重制约了该研究方向的发展。在本工作中,我们提出了面向生物医学领域的生成式语言模型——BioBART,该模型基于BART架构进行领域适配。我们整合了多种生物医学语言生成任务,包括对话生成、摘要生成、实体链接以及命名实体识别。实验结果表明,基于PubMed摘要进行预训练的BioBART在多项任务上显著优于原始BART模型,并在多个任务上建立了强有力的基线性能。此外,我们对BioBART的预训练任务进行了消融研究,发现句子重排(sentence permutation)任务对下游任务表现产生了负面影响。