
신경 기계 번역(Neural Machine Translation, NMT) 모델은 일반적으로 고정된 어휘를 사용하여 작동하지만, 번역은 개방형 어휘 문제(open-vocabulary problem)입니다. 이전 연구에서는 사전을 활용하여 어휘 외 단어(out-of-vocabulary words)의 번역을 처리하였습니다. 본 논문에서는 이를 보다 간단하고 효과적인 방법으로 개선하여, 희귀 단어와 알려지지 않은 단어를 하위 단어(subword) 유닛의 시퀀스로 인코딩함으로써 NMT 모델이 개방형 어휘 번역을 수행할 수 있도록 하는 접근법을 소개합니다. 이는 다양한 단어 클래스가 단어보다 더 작은 유닛을 통해 번역될 수 있다는 직관(intuition)에 기반한 것입니다. 예를 들어, 이름(문자 복사 또는 표기(transliteration)를 통해), 합성어(구성적 번역(compositional translation)을 통해), 그리고 동원어와 외래어(음운론적 및 형태론적 변환(phonological and morphological transformations)을 통해) 등이 있습니다. 우리는 간단한 문자 n-그램 모델과 바이트 쌍 인코딩 압축 알고리즘(byte pair encoding compression algorithm) 기반의 분절화(segmentation) 방법 등을 포함한 다양한 단어 분절화 기술의 적합성을 논의하며, 실험적으로 하위 단어 모델이 WMT 15 영어-독일어 및 영어-러시아어 번역 작업에서 사전 후보(back-off dictionary) 베이스라인보다 각각 1.1 BLEU 점수와 1.3 BLEU 점수를 높였음을 보여줍니다.