Vega-MT: WMT22을 위한 JD 탐구 아카데미 번역 시스템

우리는 WMT 2022 공동 일반 번역 과제에 JD Explore Academy가 제출한 결과를 설명한다. 우리는 중국어-영어, 독일어-영어, 체코어-영어, 러시아어-영어, 일본어-영어 등 고자원 트랙 전부와 중간 자원 트랙 1개에 참여하였다. 이전 연구에서 제안한 번역을 위한 양방향 학습 기반 기술을 확장하여, 주요 두 가지 요소—언어 쌍의 수와 모델 크기—를 대규모로 확장함으로써, \textbf{Vega-MT} 시스템을 구축하였다. 언어 쌍 측면에서, 기존의 '양방향' 설정을 '다방향' 설정으로 확장하여 참가하는 모든 언어를 포괄함으로써 언어 간 공통 지식을 효과적으로 활용하고, 이를 하류 이중 언어 번역 작업에 전이하였다. 모델 크기 측면에서는 Transformer-Big 모델을 약 47억 개의 파라미터를 갖는 매우 큰 모델로 확장하여 Vega-MT의 모델 용량을 극대화하였다. 또한, 단일 언어 데이터에 대해 사이클 번역(cycle translation)과 이중 및 단일 언어 데이터에 대해 양방향 자기학습(bidirectional self-training)과 같은 데이터 증강 전략을 도입하여 이중 및 단일 언어 데이터를 종합적으로 활용하였다. Vega-MT를 일반 도메인 테스트 세트에 적응시키기 위해 일반화 튜닝(generalization tuning) 전략을 설계하였다. 공식 자동 평가 점수 기준에 따르면, sacreBLEU 기준으로 그림 1과 같이, {중국어-영어(33.5), 영어-중국어(49.7), 독일어-영어(33.7), 영어-독일어(37.8), 체코어-영어(54.9), 영어-체코어(41.4), 영어-러시아어(32.7)}에서 1위를 기록하였으며, {러시아어-영어(45.1), 일본어-영어(25.6)}에서는 2위를, {영어-일본어(41.5)}에서는 3위를 차지하였다. COMET 기준으로는 {중국어-영어(45.1), 영어-중국어(61.7), 독일어-영어(58.0), 영어-독일어(63.2), 체코어-영어(74.7), 러시아어-영어(64.9), 영어-러시아어(69.6), 영어-일본어(65.1)}에서 1위를, {영어-체코어(95.3), 일본어-영어(40.6)}에서는 2위를 각각 기록하였다.