17일 전

비지도 다국어 정렬을 위한 와서스타인 바리센터 활용

Xin Lian, Kshitij Jain, Jakub Truszkowski, Pascal Poupart, Yaoliang Yu
비지도 다국어 정렬을 위한 와서스타인 바리센터 활용
초록

무 supervision 다국어 정렬 문제, 즉 병렬 데이터 없이 다수의 언어 간 단어 수준 번역을 찾는 문제를 연구한다. 대표적인 전략 중 하나는 입력된 언어들 중 하나를 피벗 언어로 선택하여 다국어 정렬 문제를 더 단순화된 이국어 설정으로 축소하는 것이다. 그러나 잘 선택되지 않은 피벗 언어(예: 영어)를 거치는 것은 학습 과정에서 모든 언어 쌍 간 전이 관계가 강제되지 않을 수 있으므로 번역 품질을 심각하게 저하시킬 수 있다는 점이 잘 알려져 있다. 보다 임의적인 피벗 언어를 거치는 대신, 우리는 모든 언어의 정보를 통합하고 모든 쌍 간 운반 비용을 최소화하는 더 정보적인 ‘평균’ 언어로 와서슈타인 바리센터(Wasserstein barycenter)를 제안한다. 제안한 방법은 표준 벤치마크에서 평가되었으며, 최신 기술 수준의 성능을 입증하였다.

비지도 다국어 정렬을 위한 와서스타인 바리센터 활용 | 최신 연구 논문 | HyperAI초신경