3달 전

CipherDAug: 신경망 기계 번역을 위한 암호문 기반 데이터 증강

Nishant Kambhatla, Logan Born, Anoop Sarkar
CipherDAug: 신경망 기계 번역을 위한 암호문 기반 데이터 증강
초록

우리는 신경망 기반 기계 번역을 위한 새로운 데이터 증강 기법을 제안한다. 이 기법은 ROT-$k$ 암호문을 기반으로 하며, ROT-$k$는 평문의 각 문자를 알파벳에서 그 다음 $k$번째 문자로 치환하는 간단한 문자 치환 암호이다. 본 연구에서는 병렬 데이터의 소스 쪽인 평문에 대해 다양한 $k$ 값들을 사용하여 다수의 ROT-$k$ 암호문을 생성한다. 이후 이러한 암호화된 학습 데이터를 원래의 병렬 데이터와 함께 다중 소스 학습(multi-source training)을 통해 활용함으로써 신경망 기계 번역 성능을 향상시킨다. 제안하는 방법인 CipherDAug는 공정한 정규화(co-regularization)에 영감을 받은 학습 절차를 사용하며, 원본 학습 데이터 외에 외부 데이터 소스가 필요 없으며, 표준 Transformer 아키텍처를 사용함으로써 여러 데이터셋에서 강력한 데이터 증강 기법들을 크게 능가한다. 이 기법은 기존의 데이터 증강 접근법과 쉽게 결합 가능하며, 특히 자원이 제한된(low-resource) 환경에서 특히 우수한 성능을 발휘한다.