2달 전

R-Transformer: 반복 신경망으로 강화된 트랜스포머

Zhiwei Wang; Yao Ma; Zitao Liu; Jiliang Tang
R-Transformer: 반복 신경망으로 강화된 트랜스포머
초록

순환 신경망(RNN)은 시퀀스 모델링에서 오랫동안 주요 선택肢로 여겨져 왔습니다. 그러나 이는 두 가지 중요한 문제를 가지고 있습니다: 매우 장기적인 의존성을 포착하는 데 어려움이 있으며, 순차적 계산 절차를 병렬화할 수 없다는 것입니다. 따라서 최근에는 합성곱과 주의(attention) 연산을 기반으로 하는 비순환 시퀀스 모델들이 많이 제안되었습니다. 특히, 멀티헤드 주의(multi-head attention) 메커니즘을 사용하는 Transformer와 같은 모델들은 다양한 시퀀스 모델링 작업에서 장기적인 의존성을 효과적으로 포착하는 데 있어 극도의 효능을 보여주었습니다. 그러나 이러한 모델들은 시퀀스 내의 국소 구조를 모델링하기 위한 필수 구성 요소가 부족하며, 제한된 효과를 가진 위치 임베딩(position embeddings)에 크게 의존하고 있어 설계 노력이 상당히 필요합니다. 본 논문에서는 RNN과 멀티헤드 주의 메커니즘의 장점을 유지하면서 각각의 단점을 피할 수 있는 R-Transformer를 제안합니다. 제안된 모델은 위치 임베딩을 전혀 사용하지 않으면서도 시퀀스 내의 국소 구조와 전역적인 장기 의존성을 효과적으로 포착할 수 있습니다. 우리는 다양한 분야에서 수집된 데이터를 이용하여 광범위한 실험을 통해 R-Transformer를 평가하였으며, 경험적 결과는 대부분의 작업에서 R-Transformer가 최신 방법론들을 크게 앞선다는 것을 보여주고 있습니다. 우리는 코드를 공개적으로 제공하고 있으며, 이를 \url{https://github.com/DSE-MSU/R-transformer}에서 확인하실 수 있습니다.