17 天前

SciDeBERTa:面向科技文献的DeBERTa模型学习与信息抽取任务的微调

{Eunhui Kim, Yuna Jeong}
摘要

基于深度学习的语言模型(LMs)分别于2019年4月和7月在SQuAD 1.1与GLUE基准测试中超越了人类表现的黄金标准。截至2022年,SuperGLUE基准测试排行榜上排名前五的语言模型均已超过该黄金标准。即便具备良好通用知识的人类,在医学、人工智能等专业领域的问题面前也往往难以应对。正如人类通过本科、硕士及博士阶段的学习逐步掌握专业知识,语言模型同样需要经过特定过程以发展出对领域知识的理解能力。为此,本研究提出了一种面向科技领域的预训练语言模型——SciDeBERTa及其在计算机科学领域进一步预训练的变体SciDeBERTa(CS),旨在提升模型在科技文本理解方面的专精能力。我们基于已在通用语料上预训练的DeBERTa模型,进一步利用科技领域语料进行持续预训练。实验结果表明,在SciERC数据集的实体识别任务中,SciDeBERTa(CS)在计算机科学领域持续预训练后,其准确率分别比SciBERT和S2ORC-SciBERT(均为面向科技领域的预训练语言模型)高出3.53%和2.17%。在SciERC数据集的联合关系抽取(JRE)任务中,SciDeBERTa(CS)相较基线模型SCIIE实现了6.7%的性能提升。在Genia数据集上的实验中,SciDeBERTa在与S2ORC-SciBERT、SciBERT、BERT、DeBERTa及SciDeBERTa(CS)的对比中表现最优。此外,本研究在微调阶段还探索了参数重新初始化技术以及基于Adam优化器的改进型优化器,以进一步验证预训练语言模型的语言理解能力。