11일 전
TRANS-BLSTM: 언어 이해를 위한 양방향 LSTM을 갖춘 Transformer
Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang

초록
최근 Bidirectional Encoder Representations from Transformers (BERT)는 문장 분류, 기계 번역, 질문 응답 등 다양한 자연어 처리(NLP) 작업에서 최상의 성능을 달성하며 주목받고 있다. BERT 모델 아키텍처는 주로 트랜스포머(Transformer)에서 유도되었다. 트랜스포머 시대 이전까지는 양방향 Long Short-Term Memory(BLSTM)가 신경망 기반 기계 번역 및 질문 응답 모델링의 주류 아키텍처였다. 본 논문에서는 이러한 두 가지 모델링 기법을 결합하여 보다 강력한 모델 아키텍처를 설계하는 방법을 탐구한다. 우리는 각 트랜스포머 블록에 BLSTM 계층을 통합한 새로운 아키텍처인 Transformer with BLSTM(TRANS-BLSTM)을 제안한다. 이는 트랜스포머와 BLSTM의 공동 모델링 프레임워크를 가능하게 한다. 실험 결과, GLUE 및 SQuAD 1.1 벤치마크에서 BERT 기준 모델에 비해 TRANS-BLSTM 모델이 일관되게 정확도 향상을 보였다. 특히 SQuAD 1.1 개발 데이터셋에서 F1 스코어 94.01%를 기록하며 최신 기술 수준의 성능과 비교 가능한 결과를 도출하였다.