3달 전

베트남어에 대한 더 나은 번역

{Trieu Trinh, Chinh Ngo}

초록

우리는 인터넷의 오픈 소스에서 데이터를 수집하여 각각의 언어 스타일이 명시된 다양한 카테고리로 분류합니다. 총 330만 개의 영문과 베트남어 텍스트 쌍이 있으며, 단문부터 단락까지 다양한 형태를 포함합니다. 본 연구 데이터셋으로 훈련된 모델은 선택된 다양한 텍스트 소스에서 구글 번역을 상회하는 성능을 보였으며, IWSLT'15 평가에서 BLEU 점수 37.84를 기록했습니다.