1 个月前

StructBERT：将语言结构融入预训练以实现深度语言理解

Wei Wang; Bin Bi; Ming Yan; Chen Wu; Zuyi Bao; Jiangnan Xia; Liwei Peng; Luo Si

摘要

近日，预训练语言模型BERT（及其经过稳健优化的版本RoBERTa）在自然语言理解（NLU）领域引起了广泛关注，并在情感分类、自然语言推理、语义文本相似性和问答等多种NLU任务中取得了最先进的准确率。受Elman [8]关于线性化探索工作的启发，我们通过将语言结构纳入预训练过程，将BERT扩展为一个新的模型——StructBERT。具体而言，我们使用两个辅助任务对StructBERT进行预训练，以充分利用词汇和句子的顺序性，这两个任务分别利用了词汇级和句子级的语言结构。因此，新模型能够适应下游任务所需的各个层次的语言理解能力。具有结构预训练的StructBERT在多种下游任务上给出了令人惊讶的良好实证结果，包括在GLUE基准测试中达到89.0分（超越所有已发表的模型），SQuAD v1.1问答任务中的F1分数达到93.0，以及SNLI任务中的准确率达到91.7。