17일 전
MTet: 영어 및 베트남어를 위한 다영역 번역
Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong

초록
우리는 영어-베트남어 번역을 위한 가장 큰 공개 병렬 코퍼스인 MTet을 소개한다. MTet는 420만 개의 고품질 훈련 문장 쌍과 베트남 연구 공동체에 의해 정제된 다중 도메인 테스트 세트로 구성되어 있다. 기존의 영어-베트남어 번역 연구들과 결합함으로써, 기존 병렬 데이터셋을 총 620만 개의 문장 쌍으로 확장하였다. 또한 영어와 베트남어를 위한 최초의 사전 학습 모델인 EnViT5를 공개한다. 이러한 자원들을 결합한 우리 모델은 번역 BLEU 점수에서 기존 최고 성능 모델보다 최대 2점 우수한 성능을 보였으며, 크기는 1.6배 작다.