2달 전

컨벌루션 시퀀스 투 시퀀스 학습

Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin
컨벌루션 시퀀스 투 시퀀스 학습
초록

시퀀스-투-시퀀스 학습의 일반적인 접근 방식은 순환 신경망을 통해 입력 시퀀스를 가변 길이의 출력 시퀀스로 매핑하는 것입니다. 우리는 완전히 컨벌루션 신경망에 기반한 아키텍처를 소개합니다. 순환 모델과 비교하여, 모든 요소에 대한 계산은 훈련 중 완전히 병렬화될 수 있으며, 비선형성의 수가 고정되어 있고 입력 길이와 독립적이기 때문에 최적화가 더 쉽습니다. 게이티드 선형 유닛(gated linear units)의 사용은 그래디언트 전파를 용이하게 하며, 각 디코더 레이어는 별도의 어텐션 모듈을 갖추고 있습니다. GPU와 CPU 모두에서 Wu et al. (2016)의 깊은 LSTM 구조보다 WMT'14 영어-독일어 번역과 WMT'14 영어-프랑스어 번역에서 정확도가 월등히 높으며, 속도는 한 자릿수 이상 빠릅니다.

컨벌루션 시퀀스 투 시퀀스 학습 | 최신 연구 논문 | HyperAI초신경