
초록
우리는 신경망 기계 번역(NMT) 성능을 향상시키기 위한 간단하면서도 효과적인 학습 전략인 Bi-SimCut을 제안한다. 이 전략은 이방향 사전학습(bidirectional pretraining)과 단방향 미세조정(unidirectional fine-tuning)이라는 두 가지 절차로 구성된다. 두 절차 모두 원본 문장 쌍과 절단된 문장 쌍의 출력 분포 간 일관성을 강제하는 간단한 정규화 기법인 SimCut를 활용한다. 백트랜슬레이션을 통한 추가 데이터 활용이나 대규모 사전학습 모델의 통합 없이도 Bi-SimCut는 다섯 가지 번역 벤치마크(데이터 크기 범위: 160K에서 20.2M)에서 뛰어난 번역 성능을 달성한다. IWSLT14 데이터셋에서 en→de 번역의 BLEU 점수는 31.16, de→en 번역은 38.37을 기록했으며, WMT14 데이터셋에서는 en→de가 30.78, de→en이 35.15를 기록했다. 또한 WMT17 데이터셋의 zh→en 번역에서는 BLEU 점수가 27.17을 달성했다. SimCut는 새로운 방법이 아니라 Shen 등(2020)의 Cutoff를 NMT 환경에 적합하게 단순화하고 변형한 버전으로, 펄루이션 기반(perturbation-based) 방법으로 간주할 수 있다. SimCut와 Bi-SimCut의 보편성과 간결함을 고려할 때, 향후 NMT 연구의 강력한 기준(baseline)이 될 수 있다고 판단한다.