11 天前
SMART:通过合理正则化优化实现预训练自然语言模型的鲁棒且高效的微调
Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao

摘要
迁移学习从根本上改变了自然语言处理(NLP)研究的格局。目前许多先进的模型首先在大规模文本语料上进行预训练,随后在下游任务上进行微调。然而,由于下游任务的数据资源有限,且预训练模型具有极高的容量,激进的微调策略往往导致模型在下游任务上过拟合,同时遗忘预训练阶段所学习到的知识。为更系统、更严谨地解决上述问题,我们提出了一种新的计算框架,用于实现预训练语言模型的鲁棒且高效的微调。具体而言,该框架包含两个关键组成部分:1)平滑性诱导正则化(smoothness-inducing regularization),有效控制模型容量;2)Bregman近端点优化(Bregman proximal point optimization),属于一类信赖域方法,能够有效防止知识遗忘。实验结果表明,所提出的方法在多个NLP基准测试中均取得了当前最优的性能表现。