17일 전
대규모 단어화 데이터를 활용한 신경망 기계 번역
{Jian-Huang Lai, Tie-Yan Liu, Yiren Wang, Tao Qin, Lijun Wu, Yingce Xia}

초록
타겟 측 단어장 데이터가 백 번역을 통해 신경 기계 번역(NMT) 향상에 매우 유용함이 입증된 반면, 소스 측 단어장 데이터는 잘 연구되지 않았다. 본 연구에서는 소스 측과 타겟 측 단어장 데이터를 모두 활용하는 방법을 탐구하고, 이를 효과적으로 활용하는 전략을 제안한다. 먼저, 진정한 이중 언어 데이터(비텍스트)로 사전 학습된 모델을 사용하여 두 도메인의 단어장 데이터를 서로 다른 도메인으로 번역하여 합성 이중 언어 데이터를 생성한다. 다음으로, 생성된 합성 이중 언어 데이터를 연결한 후 각 소스 시퀀스를 무작위로 손상시킨 노이즈 버전으로 구성된 데이터셋을 기반으로 모델을 학습한다. 마지막으로, 모델은 진정한 이중 언어 데이터와 합성 이중 언어 데이터의 일부에 대한 깨끗한 버전(노이즈 없이)을 사용하여 미세 조정(fine-tuning)한다. 제안한 방법은 WMT16, WMT17, WMT18 영어↔독어 번역 및 WMT19 독어↔프랑스어 번역에서 최신 기준(SOTA) 성능을 달성하며, 본 방법의 효과성을 입증한다. 또한, 전체 파이프라인 내 각 구성 요소의 작동 방식에 대해 종합적인 연구를 수행하였다.