2달 전

Transformer 모델을 위한 완화된 주의력

Lohrenz, Timo ; Möller, Björn ; Li, Zhengyang ; Fingscheidt, Tim
Transformer 모델을 위한 완화된 주의력
초록

전체 주의 기반 트랜스포머 아키텍처의 강력한 모델링 능력은 종종 과적합을 초래하며, 자연어 처리 작업에서는 자기 회귀 트랜스포머 디코더에서 암시적으로 학습된 내부 언어 모델을 복잡하게 만들어 외부 언어 모델의 통합을 어렵게 합니다. 본 논문에서는 이에 대한 해결책으로 간단하고 구현이 쉬운 주의 가중치 평활화 방법인 완화된 주의를 탐구합니다. 이 방법은 일반적인 트랜스포머 아키텍처에 두 가지 개선을 제공합니다. 첫째, 완화된 주의는 인코더의 자기 주의 레이어에 적용될 때 정규화를 제공합니다. 둘째, 우리는 완화된 주의가 디코더에서 교차 주의를 완화함으로써 암시적으로 학습된 내부 언어 모델을 억제하여 외부 언어 모델의 통합을 자연스럽게 지원한다는 것을 보여줍니다. 우리는 최근 벤치마크 접근법과 결합하여 여러 작업에서 명확한 향상을 보이는 완화된 주의의 이점을 시연합니다. 특히, 가장 큰 공개 리프리딩(Lip-Reading) 벤치마크인 LRS3에서 26.90%였던 기존 최고 수준의 단어 오류율을 26.31%로 초월하였으며, IWSLT14 (DE→EN) 기계 번역 작업에서도 외부 언어 모델 없이 거의 추가적인 모델 매개변수 없이 최상위 BLEU 점수 37.67을 달성하였습니다. 코드와 모델은 공개될 예정입니다.