11日前

TRANS-BLSTM:言語理解のための双方向LSTMを備えたTransformer

Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang
TRANS-BLSTM:言語理解のための双方向LSTMを備えたTransformer
要約

Bidirectional Encoder Representations from Transformers(BERT)は、文類別、機械翻訳、質問応答など、幅広い自然言語処理(NLP)タスクにおいて、最近、最先端の性能を達成している。BERTのモデルアーキテクチャは主にTransformerに由来している。Transformer時代以前には、双方向性長短期記憶(BLSTM)がニューラル機械翻訳および質問応答の主要なモデルアーキテクチャとして広く用いられていた。本論文では、これらの2つのモデリング手法を統合することで、より強力なモデルアーキテクチャを構築する可能性について検討する。そこで、TransformerブロックごとにBLSTM層を統合した新しいアーキテクチャ「Transformer with BLSTM(TRANS-BLSTM)」を提案する。この構造により、TransformerとBLSTMの共同モデリングフレームワークが実現される。実験の結果、GLUEおよびSQuAD 1.1のタスクにおいて、BERTベースラインと比較して、TRANS-BLSTMモデルが一貫して精度の向上を示した。特にSQuAD 1.1開発データセットにおいて、F1スコア94.01%を達成し、現時点での最先端の結果と同等の性能を示した。

TRANS-BLSTM:言語理解のための双方向LSTMを備えたTransformer | 最新論文 | HyperAI超神経