8일 전

사전 훈련된 언어 모델을 통한 병렬 문장집 필터링

Boliang Zhang, Ajay Nagesh, Kevin Knight
사전 훈련된 언어 모델을 통한 병렬 문장집 필터링
초록

웹 크롤링 데이터는 기계 번역 모델 훈련을 위한 병렬 코퍼스의 훌륭한 원천을 제공한다. 이 데이터는 자동으로 수집되지만 매우 노이즈가 많으며, 최근 연구에서는 신경 기반 기계 번역 시스템이 전통적인 통계적 기계 번역 방법보다 노이즈에 더 민감함을 보였다. 본 논문에서는 사전 훈련된 언어 모델을 활용하여 웹 크롤링 코퍼스에서 노이즈가 있는 문장 쌍을 필터링하는 새로운 접근법을 제안한다. 우리는 다국어 기능을 갖춘 BERT를 활용하여 문장의 병렬성(parallelism)을 측정하고, 생성형 사전 훈련(GPT) 언어 모델을 도메인 필터로 사용하여 데이터 도메인의 균형을 유지한다. 제안한 방법은 WMT 2018 병렬 코퍼스 필터링 공동 과제와 본 연구자가 자체적으로 수집한 일본어-중국어 병렬 코퍼스에서 평가되었으며, 기존의 베이스라인보다 유의미하게 우수한 성능을 보이며 새로운 최고 성능(SOTA)을 달성했다. 비지도 학습 설정에서도 최상위 지도 학습 방법과 비교해 유사한 성능을 달성하였다. 또한, 본 연구자가 공개한 웹 크롤링 일본어-중국어 병렬 코퍼스를 활용하여 추가 평가를 수행하였다.

사전 훈련된 언어 모델을 통한 병렬 문장집 필터링 | 최신 연구 논문 | HyperAI초신경