
摘要
多任务学习(Multi-Task Learning, MTL)网络已成为在不同任务间迁移所学知识的一种有前景的方法。然而,MTL面临诸多挑战,包括对低资源任务的过拟合、灾难性遗忘以及负面任务迁移或学习干扰等问题。在自然语言处理(Natural Language Processing, NLP)领域,通常需要为每个任务单独训练一个模型才能获得最佳性能。然而,许多微调方法在参数利用上效率低下,即可能需要为每个任务引入一个全新的模型,且极易在微调过程中丢失预训练阶段所获得的知识。为此,我们提出了一种新型的Transformer架构,其核心包括一种新型的条件注意力机制以及一组任务相关的模块,从而促进参数共享。通过这一结构设计(即超网络适配器,hypernetwork adapter),我们实现了更高效的参数共享,并通过固定预训练模型一半的权重,有效缓解了知识遗忘问题。此外,我们引入了一种新的多任务数据采样策略,以减轻任务间数据分布不均带来的负面影响。采用该方法,我们在保持参数与数据高效性的同时(仅使用约66%的数据进行权重更新),超越了单一任务微调方法的性能表现。在GLUE基准测试中,相较于其他BERT Large模型,我们的8任务模型比其他适配器方法高出2.8%,24任务模型则在性能上优于采用MTL或单一任务微调的模型0.7%至1.0%。我们进一步验证了该方法的可扩展性:一个更大规模的单个多任务模型在26个NLP任务上均表现出色,并在多个测试集和开发集上取得了当前最优(state-of-the-art)结果。相关代码已公开发布于:https://github.com/CAMTL/CA-MTL。