17 天前
基于Wasserstein均值的无监督多语言对齐
Xin Lian, Kshitij Jain, Jakub Truszkowski, Pascal Poupart, Yaoliang Yu

摘要
我们研究无监督多语言对齐问题,即在不使用任何平行语料的情况下,寻找多种语言之间的词对词翻译。一种常见的策略是将多语言对齐简化为更简单的双语设置,通过选取输入语言中的某一语言作为枢纽语言(pivot language)进行语言间转换。然而,众所周知,若选择的枢纽语言不佳(例如英语),可能会严重降低翻译质量,因为语言之间的假设传递关系在训练过程中可能无法得到充分约束。与依赖任意选定的枢纽语言不同,我们提出采用 Wasserstein 重心(Wasserstein barycenter)作为更具信息量的“平均”语言:它融合了所有语言的信息,并最小化了所有语言对之间的运输成本。我们在标准基准数据集上评估了所提出的方法,结果表明其性能达到当前最先进水平。