13일 전
언어 모델은 사전 훈련을 위한 것만이 아니다: 빠른 온라인 신경망 노이즈 채널 모델링
Shruti Bhosale, Kyra Yee, Sergey Edunov, Michael Auli

초록
광범위한 양의 레이블이 없는 데이터를 기반으로 사전 훈련하는 것은 자연어 처리(NLP) 작업에서 정확도를 향상시키는 효과적인 방법으로 부상했다. 한편, 전통적인 기계 번역은 오랜 기간에 걸쳐 노이즈 채널 모델링을 통해 레이블이 없는 데이터를 활용해왔다. 최근 이와 같은 아이디어가 신경망 기반 기계 번역(NMT)에서도 강력한 성능 향상을 이끌어냈다. 그러나 현대의 시퀀스 투 시퀀스 모델을 사용한 단순한 노이즈 채널 모델링은 대안 대비 최대 10배 이상 느린 추론 속도를 보인다. 본 연구에서는 노이즈 채널 접근법의 추론 속도를 강력한 앙상블과 동급으로 빠르게 하면서 정확도를 더욱 높일 수 있도록 효율적인 근사 기법을 제안한다. 또한, 노이즈 채널 접근법이 강력한 사전 훈련 모델을 능가하며 WMT 로마니아어-영어 번역 작업에서 새로운 최고 성능(SOTA)을 달성함을 보여준다.