17日前
無監督多言語アライメントにおけるワッサーシュタインバーリセンターの利用
Xin Lian, Kshitij Jain, Jakub Truszkowski, Pascal Poupart, Yaoliang Yu

要約
無監督多言語対応(unsupervised multilingual alignment)とは、並列データ(parallel data)を一切用いずに複数言語間の単語対応(word-to-word translations)を探索する問題である。一般的なアプローチの一つとして、入力された複数言語のうちの一つをピボット言語として選び、多言語問題を単純化された二言語問題に還元する手法がある。しかし、英語のような適切でないピボット言語を選択した場合、すべての言語ペア間における推移的関係(transitive relations)が学習プロセスで保証されないため、翻訳品質が著しく低下することが知られている。本研究では、恣意的に選ばれるピボット言語を経由する代わりに、すべての言語の情報を統合し、すべての言語ペア間の輸送コストを最小化する「平均的」な言語としてウォッシャーsteinバリアンセン(Wasserstein barycenter)を用いる新しいアプローチを提案する。本手法は標準ベンチマーク上で評価され、最先端の性能を達成することを実証した。