13 天前
K-Adapter:通过适配器将知识注入预训练模型
Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu ji, Guihong Cao, Daxin Jiang, Ming Zhou

摘要
我们研究了将知识注入大型预训练模型(如BERT和RoBERTa)的问题。现有方法通常在注入知识时直接更新预训练模型的原始参数。然而,当需要注入多种不同类型的知识时,先前注入的知识往往会因参数覆盖而被冲刷掉。为解决这一问题,我们提出K-Adapter框架,该框架保持预训练模型的原始参数固定不变,同时支持构建具备多样化知识增强能力的模型。以RoBERTa作为主干模型,K-Adapter为每类注入的知识配置一个神经适配器(neural adapter),这些适配器如同插件一般连接至RoBERTa。不同适配器之间无信息交互,因此可高效地采用分布式方式并行训练多个适配器。作为案例研究,本文注入了两类知识:(1)通过维基百科(Wikipedia)与维基数据(Wikidata)上自动对齐的文本三元组获取的事实性知识;(2)通过依存句法分析获得的语言学知识。在三个依赖知识的任务上进行的实验——包括关系分类、实体类型识别和问答——结果表明,每个适配器均能提升模型性能,而两个适配器的联合使用进一步带来了更显著的性能增益。进一步分析显示,相较于原始RoBERTa模型,K-Adapter能够更有效地捕获多样化知识。