2 个月前

从BERT中提取任务特定知识到简单神经网络

Raphael Tang; Yao Lu; Linqing Liu; Lili Mou; Olga Vechtomova; Jimmy Lin

摘要

在自然语言处理领域的文献中，神经网络正变得越来越深且复杂。这一趋势的最新代表是深度语言表示模型，其中包括BERT、ELMo和GPT。这些进展使得人们认为上一代较浅的神经网络在语言理解方面已经过时。然而，在本文中，我们证明了即使不改变架构、不使用外部训练数据或额外输入特征，基础且轻量级的神经网络仍然可以具有竞争力。我们提出将来自BERT（一种最先进的语言表示模型）的知识蒸馏到单层双向长短期记忆网络（BiLSTM）及其用于句子对任务的孪生版本中。在多个涉及释义、自然语言推理和情感分类的数据集上，我们的方法取得了与ELMo相当的结果，同时使用的参数数量减少了约100倍，推理时间也缩短了15倍。