17일 전
다중 브랜치 주의 기반 트랜스포머
Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li, Tie-Yan Liu

초록
다중 분기 아키텍처는 컴퓨터 비전 작업에서 성공의 핵심 요소 중 하나이지만, 자연어 처리, 특히 시계열 학습 작업에서는 잘 연구되지 않았다. 본 연구에서는 주목사(attention) 레이어가 여러 분기의 평균으로 구성되며, 각 분기는 독립적인 다중 헤드 주목사 레이어인 간단하면서도 효과적인 Transformer의 변형인 다중 분기 주목사 Transformer(Multi-Branch Attentive Transformer, 약칭 MAT)을 제안한다. 학습을 정규화하기 위해 두 가지 기법을 활용한다: 학습 중에 무작위로 개별 분기를 제거하는 드롭-브랜치(drop-branch), 그리고 사전 훈련된 Transformer 모델을 사용하여 다중 분기를 초기화하는 프록시 초기화(proximal initialization). 기계 번역, 코드 생성, 자연어 이해 작업에 대한 실험 결과, 이러한 간단한 Transformer 변형이 상당한 성능 향상을 가져옴을 입증하였다. 본 연구의 코드는 \url{https://github.com/HA-Transformer}에서 공개되어 있다.