
摘要
在本文中,我们介绍了一种多任务深度神经网络(MT-DNN),用于跨多个自然语言理解(NLU)任务学习表示。MT-DNN不仅利用了大量跨任务数据,还受益于一种正则化效应,从而生成更为通用的表示,以便更好地适应新任务和新领域。MT-DNN扩展了Liu等人(2015)提出的模型,通过引入预训练的双向Transformer语言模型,即BERT(Devlin等人,2018)。MT-DNN在十个NLU任务上取得了新的最先进结果,包括SNLI、SciTail以及GLUE基准中的九个任务中的八个,将GLUE基准分数提升至82.7%(绝对提升了2.2%)。我们还使用SNLI和SciTail数据集证明了MT-DNN所学习到的表示能够在显著减少领域内标签的情况下实现领域适应。代码和预训练模型已在https://github.com/namisan/mt-dnn公开发布。