
초록
기계 번역은 훈련 데이터의 크기와 품질에 매우 민감하여, 이는 대규모 병렬 코퍼스를 수집하고 필터링하는 데 대한 관심을 증가시키고 있습니다. 본 논문에서는 다국어 문장 임베딩을 기반으로 하는 이 작업을 위한 새로운 방법을 제안합니다. 기존 접근 방식이 코사인 유사도에 대한 경직된 임계값을 사용하여 가장 가까운 이웃 검색에 의존하는 것과 달리, 제안된 방법은 이 측정치의 스케일 불일치를 고려하며, 주어진 문장 쌍과 그 가장 가까운 후보 사이의 마진을 고려합니다. 실험 결과, 기존 방법보다 큰 개선이 이루어졌음을 보여줍니다. 우리는 BUCC 마이닝 작업과 UN 재구성 작업에서 각각 10점 이상의 F1 점수와 30점 이상의 정밀도 점수로 최고의 공개된 결과를 초월했습니다. 우리의 접근 방식으로 영어-독일어 ParaCrawl 코퍼스를 필터링하면 newstest2014에서 31.2 BLEU 점수를 얻었으며, 최고의 공식 필터링 버전보다 1점 이상 개선되었습니다.