11 天前

TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer

Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang
TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer
摘要

双向编码器表示模型(Bidirectional Encoder Representations from Transformers,简称 BERT)近期在自然语言处理(NLP)的多项任务中取得了最先进水平的性能,涵盖句子分类、机器翻译和问答系统等。BERT 模型架构主要基于 Transformer 结构。在 Transformer 出现之前,双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)是神经机器翻译和问答系统领域占主导地位的建模架构。本文旨在研究如何将这两种建模技术相结合,以构建更具表现力的模型架构。为此,我们提出一种新型架构——Transformer 与 BLSTM 融合模型(TRANS-BLSTM),该架构在每个 Transformer 模块中集成了一层 BLSTM,从而形成一种融合 Transformer 与 BLSTM 的联合建模框架。实验结果表明,在 GLUE 和 SQuAD 1.1 基准测试中,TRANS-BLSTM 模型在准确率方面均持续优于 BERT 基线模型。其中,我们的 TRANS-BLSTM 模型在 SQuAD 1.1 开发集上取得了 94.01% 的 F1 分数,达到当前最先进水平。

TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer | 最新论文 | HyperAI超神经