17일 전

마스크 어텐션 네트워크: 트랜스포머의 재고찰 및 강화

Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang
마스크 어텐션 네트워크: 트랜스포머의 재고찰 및 강화
초록

Transformer는 자기 주의 기반(self-attention-based) 신경망으로, 두 개의 하위 계층인 자기 주의 네트워크(Self-Attention Network, SAN)와 피드포워드 네트워크(Feed-Forward Network, FFN)로 구성된다. 기존의 연구는 Transformer의 텍스트 표현 능력을 향상시키기 위해 SAN과 FFN을 각각 별도로 개선하는 데 초점을 맞추어왔다. 본 논문에서는 SAN과 FFN을 정적 마스크 행렬을 갖는 마스크 주의 네트워크(Mask Attention Networks, MANs)의 두 특수한 사례로 새롭게 해석한다. 그러나 이러한 정적 마스크 행렬은 텍스트 표현 학습에서 국소성(localness) 모델링 능력을 제한한다. 이를 해결하기 위해, 학습 가능한 마스크 행렬을 갖는 동적 마스크 주의 네트워크(Dynamic Mask Attention Network, DMAN)라는 새로운 계층을 제안한다. 이 DMAN은 국소성을 적응적으로 모델링할 수 있다. DMAN, SAN, FFN의 장점을 통합하기 위해, 세 가지 유형의 계층을 순차적으로 결합하는 구조를 제안한다. 신경 기계 번역과 텍스트 요약을 포함한 다양한 작업에 대한 광범위한 실험을 통해, 제안하는 모델이 원래의 Transformer보다 우수한 성능을 보임을 입증하였다.

마스크 어텐션 네트워크: 트랜스포머의 재고찰 및 강화 | 최신 연구 논문 | HyperAI초신경