2달 전
선형 시간 내의 신경망 기계 번역
Nal Kalchbrenner; Lasse Espeholt; Karen Simonyan; Aaron van den Oord; Alex Graves; Koray Kavukcuoglu

초록
우리는 시퀀스 처리를 위한 새로운 신경망을 제시합니다. ByteNet는 소스 시퀀스를 인코딩하고 대상 시퀀스를 디코딩하는 두 부분으로 구성된 일차원 합성곱 신경망입니다. 이 두 네트워크 부분은 디코더를 인코더 위에 쌓고 시퀀스의 시간 해상도를 유지함으로써 연결됩니다. 소스와 대상 시퀀스의 길이가 다르다는 문제를 해결하기 위해, 우리는 디코더가 인코더의 표현 위에서 동적으로 전개되는 효율적인 메커니즘을 도입하였습니다. ByteNet는 합성곱 계층에서 확장을 사용하여 수용 영역을 확장합니다. 결과적으로 얻어진 네트워크는 두 가지 핵심 특성을 가지고 있습니다: 시퀀스의 길이에 선형적으로 작동하며 과도한 기억력 요구를 피할 수 있다는 것입니다. ByteNet 디코더는 문자 단위 언어 모델링에서 최고 성능을 달성하였으며, 이전에 재귀적 네트워크로 얻은 최고 결과보다 우수한 성능을 보였습니다. 또한 ByteNet는 영어-독일어 WMT 번역 작업에서 문자-문자 기계 번역에서도 최고 성능을 달성하였으며, 주의 풀링(attentional pooling) 기반의 재귀적 네트워크로 구현된 유사한 신경 번역 모델보다 뛰어난 성능을 보였습니다. 이러한 모델들은 제곱 시간 복잡도로 작동합니다. 우리는 표현에 포함된 잠재적인 정렬 구조가 토큰 간 예상되는 정렬을 반영한다는 것을 발견하였습니다.