비지도 신경 기계 번역에 대한 SMT를 후방 정규화로 사용

실제 양방언어 말뭉치가 없는 경우, 비지도 신경 기계 번역(Neural Machine Translation, NMT) 모델은 일반적으로 역번역(back-translation) 방법을 통해 생성된 의사 병렬 데이터를 사용하여 학습됩니다. 그러나 약한 감독으로 인해, 의사 데이터는 불가피하게 노이즈와 오류를 포함하며, 이들은 후속 학습 과정에서 누적되고 강화되어 나쁜 번역 성능을 초래합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 노이즈에 견고한 문구 기반 통계적 기계 번역(Statistic Machine Translation, SMT) 모델을 도입하여 비지도 NMT 모델의 반복적인 역번역 과정에서 학습을 안내하는 사후 정규화(posterior regularizations)로 활용합니다. 본 방법은 사전 훈련된 언어 모델과 교차 언어 임베딩(cross-lingual embeddings)으로부터 추론된 단어 수준의 번역 표(word-level translation tables)를 사용하여 구축된 SMT 모델에서 시작합니다. 그런 다음 SMT와 NMT 모델은 통합된 EM 프레임워크에서 공동으로 최적화되며, 서로를 점진적으로 향상시킵니다. 이렇게 하면 (1) 반복적인 역번역 과정에서 발생하는 오류로 인한 부정적인 영향이 SMT의 문구 표(phrase tables)를 통해 노이즈를 필터링함으로써 적시에 완화될 수 있으며, 동시에 (2) NMT는 SMT에 내재된 유창성 부족을 보완할 수 있습니다.en-fr 및 en-de 번역 작업에 대한 실험 결과, 본 방법은 강력한 베이스라인을 능가하고 새로운 최신 비지도 기계 번역 성능(state-of-the-art unsupervised machine translation performance)을 달성하였습니다.