17 天前

使用N-gram表示法驯服预训练语言模型以实现低资源领域自适应

{Tong Zhang, Yan Song, Yilei Jiang, Hongjin Su, Ruijia Xu, Shizhe Diao}
使用N-gram表示法驯服预训练语言模型以实现低资源领域自适应
摘要

大型预训练模型(如BERT)已被证实能够显著提升各类下游自然语言处理任务的性能,即使这些模型仅在通用领域数据上进行预训练。此外,近期研究表明,当具备大规模领域特定语料时,对模型进行领域特定数据的持续预训练,可进一步提升其在该领域任务上的表现。然而,这一方法通常需要大量领域特定数据及高昂的计算资源,而这些资源在实际应用中并不总是可得。本文旨在利用相对少量的领域特定数据,对通用预训练模型进行适应性优化。我们证明,通过显式地引入未见词与领域特定词汇的多粒度信息,并借助基于词的n-gram结构进行模型适配,可显著提升通用预训练模型的性能。具体而言,我们提出一种基于Transformer架构的领域感知n-gram适配器——T-DNA(Transformer-based Domain-aware N-gram Adaptor),用于有效学习并融合新领域中不同词组合的语义表示。实验结果表明,T-DNA在来自四个不同领域的八项低资源下游任务上均展现出显著有效性。与现有方法相比,T-DNA在仅使用有限数据且计算成本更低的前提下,仍能在大多数任务上实现显著性能提升。进一步的分析也验证了未见词以及多粒度信息在模型优化中的关键作用与有效性。相关代码已开源,地址为:https://github.com/shizhediao/T-DNA。