2달 전

대규모 역번역 이해하기

Sergey Edunov; Myle Ott; Michael Auli; David Grangier
대규모 역번역 이해하기
초록

단일 언어 데이터를 사용하여 신경망 기계 번역을 개선하는 효과적인 방법은 대상 언어 문장의 역번역을 통해 병렬 학습 코퍼스를 확장하는 것입니다. 본 연구는 역번역에 대한 이해를 넓히고, 합성 원문 문장을 생성하기 위한 여러 방법을 조사합니다. 연구 결과, 리소스가 부족한 환경을 제외하고 샘플링 또는 노이즈가 추가된 빔 출력을 통해 얻은 역번역이 가장 효과적임을 확인하였습니다. 분석 결과, 샘플링이나 노이즈가 추가된 합성 데이터는 빔 검색이나 탐욕적 검색으로 생성된 데이터보다 훨씬 강력한 학습 신호를 제공함을 보였습니다. 또한, 합성 데이터와 실제 병렬 코퍼스를 비교하고 다양한 도메인 효과를 연구하였습니다. 마지막으로, 수억 개의 단일 언어 문장을 활용하여 WMT'14 영어-독일어 테스트 세트에서 35 BLEU 점수라는 새로운 최고 성능을 달성하였습니다.

대규모 역번역 이해하기 | 최신 연구 논문 | HyperAI초신경