17 天前
BioMegatron:更大规模的生物医学领域语言模型
Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani

摘要
近年来,生物医学领域特定的语言模型大量涌现,研究表明,基于生物医学文本预训练的语言模型在生物医学领域的基准测试中,性能显著优于在通用领域语料(如维基百科和书籍)上训练的模型。然而,大多数现有研究并未深入探讨影响各类生物医学语言应用性能的关键因素。此外,关于模型规模对领域特定模型影响的研究仍较为匮乏。本文通过实证方法,系统评估了多个可能影响领域语言应用性能的因素,包括子词词汇表(sub-word vocabulary set)、模型规模、预训练语料以及领域迁移能力。实验结果表明,我们基于更大规模领域语料训练的大型生物医学语言模型——BioMegatron,在多个基准测试中均取得一致性的性能提升,进一步深化了对领域语言模型应用机制的理解。在标准生物医学自然语言处理任务(包括命名实体识别、关系抽取和问答系统)上,我们的方法显著超越了此前的最先进水平(SOTA)。相关模型检查点及代码已公开,可访问 [https://ngc.nvidia.com] 和 [https://github.com/NVIDIA/NeMo] 获取。