17일 전

비자율적 신경 기계 번역을 위한 그레싱 트랜스포머

Lihua Qian, Hao Zhou, Yu Bao, Mingxuan Wang, Lin Qiu, Weinan Zhang, Yong Yu, Lei Li
비자율적 신경 기계 번역을 위한 그레싱 트랜스포머
초록

최근 비자율적 신경 기계 번역(NAT)에 대한 연구는 품질을 희생시키지 않고 병렬 디코딩을 통해 효율성을 향상시키는 데 초점을 맞추고 있다. 그러나 기존의 NAT 방법들은 Transformer보다 성능이 열등하거나, 여러 번의 디코딩 단계를 필요로 하여 속도 향상이 제한된다. 본 연구에서는 단일 디코딩 단계에서 단어 간 상호의존성을 학습할 수 있는 '시선 기반 언어 모델(Glancing Language Model, GLM)'을 제안한다. GLM을 기반으로 기계 번역을 위한 '시선 트랜스포머(Glancing Transformer, GLAT)'를 개발하였다. 단일 병렬 디코딩만을 사용함에도 불구하고, GLAT는 높은 품질의 번역 결과를 생성하며, 8~15배의 속도 향상을 달성할 수 있다. 다양한 WMT 언어 방향에 대한 실험 결과, GLAT는 이전의 모든 단일 단계 비자율적 방법들을 능가하며, Transformer와 거의 동등한 성능을 보여주어 성능 격차를 0.25~0.9 BLEU 포인트로 좁혔다.