7일 전

신경 기계 번역을 위한 결정론적 가역 데이터 증강

Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo
신경 기계 번역을 위한 결정론적 가역 데이터 증강
초록

데이터 증강은 기계 번역에서 코퍼스의 다양성을 높이는 효과적인 방법이지만, 이전의 방법들은 불가역적 연산과 무작위 서브워드 샘플링 절차로 인해 원본 데이터와 증강 데이터 간에 의미적 불일치를 유발할 수 있다. 기호적으로 다양하면서도 의미적으로 일관된 증강 데이터를 생성하기 위해, 우리는 신경 기계 번역을 위한 간단하면서도 효과적인 데이터 증강 방법인 결정론적 가역 데이터 증강(Deterministic Reversible Data Augmentation, DRDA)을 제안한다. DRDA는 결정론적 분할과 가역적 연산을 채택하여 다중 그레인(granularity) 서브워드 표현을 생성하고, 다중 시점(multi-view) 기법을 통해 이를 더욱 가깝게 모은다. 추가적인 코퍼스나 모델 수정 없이도 DRDA는 여러 번역 작업에서 강력한 베이스라인을 명확한 차이로 초과하며(Transformer 대비 최대 4.3 BLEU 향상), 노이즈가 많은, 자원이 제한된, 그리고 도메인 간 전이가 이루어지는 데이터셋에서도 우수한 로버스트성을 보여준다.

신경 기계 번역을 위한 결정론적 가역 데이터 증강 | 최신 연구 논문 | HyperAI초신경