11 天前

BioBART：一种生物医学生成式语言模型的预训练与评估

Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, Sheng Yu

摘要

预训练语言模型已成为自然语言处理领域的重要基础架构。近年来，领域内预训练方法在各类特定领域的下游任务中展现出显著优势。在生物医学领域，自然语言生成（Natural Language Generation, NLG）任务具有至关重要的意义，但相关研究仍相对不足。在通用领域，通过约束性语言生成或语言提示（language prompting）将自然语言理解（Natural Language Understanding, NLU）任务转化为NLG任务，已取得令人满意的性能表现。然而，当前生物医学领域仍缺乏专门的生成式语言模型，且下游生成任务的评估基准体系尚不系统，严重制约了该研究方向的发展。在本工作中，我们提出了面向生物医学领域的生成式语言模型——BioBART，该模型基于BART架构进行领域适配。我们整合了多种生物医学语言生成任务，包括对话生成、摘要生成、实体链接以及命名实体识别。实验结果表明，基于PubMed摘要进行预训练的BioBART在多项任务上显著优于原始BART模型，并在多个任务上建立了强有力的基线性能。此外，我们对BioBART的预训练任务进行了消融研究，发现句子重排（sentence permutation）任务对下游任务表现产生了负面影响。