2달 전
주의력이 전부입니다
Vaswani, Ashish ; Shazeer, Noam ; Parmar, Niki ; Uszkoreit, Jakob ; Jones, Llion ; Gomez, Aidan N. ; Kaiser, Lukasz ; Polosukhin, Illia

초록
주요 시퀀스 변환 모델들은 인코더-디코더 구성을 가진 복잡한 순환 신경망 또는 합성곱 신경망을 기반으로 합니다. 성능이 가장 우수한 모델들은 또한 인코더와 디코더를 어텐션 메커니즘을 통해 연결합니다. 우리는 순환과 합성곱을 완전히 배제하고 오직 어텐션 메커니즘에만 기반한 새로운 단순한 네트워크 아키텍처, 트랜스포머를 제안합니다. 두 개의 기계 번역 작업에 대한 실험 결과 이 모델들이 품질 면에서 우수하며, 더 높은 병렬화 능력과 상당히 짧은 훈련 시간을 요구한다는 것을 보여줍니다. 우리의 모델은 WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU 점수를 달성하여 기존 최고 결과보다 2 BLEU 이상 향상되었습니다(앙상블 포함). WMT 2014 영어-프랑스어 번역 작업에서는 8개의 GPU로 3.5일 동안 훈련시킨 후 단일 모델로서 새로운 최고 수준의 BLEU 점수인 41.8을 설정하였습니다. 이는 문헌에서 제시된 최고 모델들의 훈련 비용의 작은 부분에 불과합니다. 우리는 트랜스포머가 다른 작업에도 잘 일반화됨을 증명하기 위해 대규모 및 제한적인 훈련 데이터를 사용하여 영어 문법 구조 분석에 성공적으로 적용하였습니다.