초록
우리는 인터넷의 오픈 소스에서 데이터를 수집하여 각각의 언어 스타일이 명시된 다양한 카테고리로 분류합니다. 총 330만 개의 영문과 베트남어 텍스트 쌍이 있으며, 단문부터 단락까지 다양한 형태를 포함합니다. 본 연구 데이터셋으로 훈련된 모델은 선택된 다양한 텍스트 소스에서 구글 번역을 상회하는 성능을 보였으며, IWSLT'15 평가에서 BLEU 점수 37.84를 기록했습니다.
우리는 인터넷의 오픈 소스에서 데이터를 수집하여 각각의 언어 스타일이 명시된 다양한 카테고리로 분류합니다. 총 330만 개의 영문과 베트남어 텍스트 쌍이 있으며, 단문부터 단락까지 다양한 형태를 포함합니다. 본 연구 데이터셋으로 훈련된 모델은 선택된 다양한 텍스트 소스에서 구글 번역을 상회하는 성능을 보였으며, IWSLT'15 평가에서 BLEU 점수 37.84를 기록했습니다.