한 달 전

게이트된 합성곱 네트워크를 이용한 언어 모델링

Yann N. Dauphin; Angela Fan; Michael Auli; David Grangier
게이트된 합성곱 네트워크를 이용한 언어 모델링
초록

지금까지 언어 모델링의 주요 접근 방식은 순환 신경망(RNN)을 기반으로 하고 있습니다. 이들의 성공은 종종 무한한 문맥을 포착하는 능력과 연결됩니다. 본 논문에서는 스택된 합성곱을 통해 유한 문맥 접근 방식을 개발합니다. 이 방법은 시퀀스 토큰에 대한 병렬화를 허용하므로 더 효율적일 수 있습니다. 우리는 오르드 등(2016)의 결과를 초월하는 새로운 간소화된 게이팅 메커니즘을 제안하고, 주요 아키텍처 결정 사항의 영향을 조사합니다. 제안된 접근 방식은 장기 의존성을 포함하는 WikiText-103 벤치마크에서 최고 수준의 성능을 달성하였으며, Google Billion Words 벤치마크에서도 경쟁력 있는 결과를 보여주었습니다. 우리의 모델은 순환 기반 모델과 비교하여 문장 점수 계산 시간을 10배 이상 줄였습니다. 우리 지식으로는, 이는 대규모 언어 작업에서 강력한 순환 모델과 경쟁할 수 있는 비순환 접근 방식이 처음으로 제시된 것입니다.