
개선된 신경망 기반 기계 번역(NMT) 시스템을 훈련하기 위해 대량의 병렬 문장 집합을 생성하는 효과적인 방법으로, 타겟 언어 측 단일 언어 데이터의 역번역(Back-translation) 활용이 있다. 기존의 표준 역번역 방법은 훈련 중 번역 모델이 실제 병렬 데이터와 합성 병렬 데이터를 구분하지 못하기 때문에 기존에 존재하는 막대한 단일 언어 데이터를 효율적으로 활용하지 못한다는 문제가 있다. 이를 해결하기 위해 태그 지정 또는 게이트(Gate) 기법이 사용되어 번역 모델이 합성 데이터와 실제 데이터를 구분할 수 있도록 하였으며, 이는 표준 역번역 방식의 성능을 향상시키는 동시에, 기존 방식에서 성능이 낮았던 언어 쌍에 대해 반복적 역번역(iterative back-translation)을 적용할 수 있게 하였다. 본 연구에서는 역번역을 도메인 적응(Domain Adaptation) 문제로 접근함으로써, 명시적인 태그 지정이 필요 없도록 하였다. 제안하는 방식인 \emph{태그 없는 역번역}(tag-less back-translation)에서는 합성 병렬 데이터를 외부 도메인(out-of-domain) 데이터로, 실제 병렬 데이터를 내부 도메인(in-domain) 데이터로 간주하고, 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 번역 모델이 훈련 과정에서 두 데이터 유형으로부터 더 효율적으로 학습할 수 있음을 입증하였다. 실험 결과, 저자원 환경에서의 영어-베트남어 및 영어-독어 신경망 기반 기계 번역에서, 제안한 방법이 표준 역번역 및 태그 기반 역번역 방식보다 우수한 성능을 보였다.