2달 전
비자기회귀적 신경 기계 번역
Jiatao Gu; James Bradbury; Caiming Xiong; Victor O.K. Li; Richard Socher

초록
기존의 신경 기계 번역 모델은 각 출력 단어를 이전에 생성된 출력에 조건부로 설정합니다. 우리는 이러한 자기 회귀 특성을 피하고 출력을 병렬로 생성하여 추론 시 지연 시간을 한 자릿수 낮출 수 있는 모델을 소개합니다. 지식 증류, 입력 토큰의 비옥성(fertility)을 잠재 변수로 사용, 그리고 정책 경사 미세 조정을 통해 우리는 교사로 사용되는 자기 회귀 트랜스포머 네트워크와 비교하여 최대 2.0 BLEU 점수 차이만으로 이를 달성하였습니다. 우리의 학습 전략의 세 가지 측면 각각과 관련된 실질적인 누적 개선 사항을 보여주며, IWSLT 2016 영어-독일어 및 두 개의 WMT 언어 쌍에서 우리의 접근 방식을 검증하였습니다. 추론 시 비옥성을 병렬로 샘플링함으로써, 우리의 비자기 회귀 모델은 WMT 2016 영어-루마니아어에서 거의 최신 수준의 29.8 BLEU 성능을 달성하였습니다.