2 个月前
词项翻译无平行数据
Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou

摘要
最先进的跨语言词嵌入学习方法依赖于双语词典或平行语料库。最近的研究表明,通过字符级信息可以减轻对平行数据监督的需求。尽管这些方法取得了令人鼓舞的结果,但它们的表现仍不及有监督的方法,并且仅限于共享同一字母表的语言对。在本研究中,我们展示了可以通过无监督的方式对齐单语词嵌入空间,从而在不使用任何平行语料库的情况下构建两种语言之间的双语词典。即使不使用任何字符信息,我们的模型在某些语言对的跨语言任务上甚至超过了现有的有监督方法。我们的实验还证明了该方法对于英语-俄语或英语-汉语等相距较远的语言对也表现出色。最后,我们描述了在资源有限的英语-世界语(Esperanto)语言对上的实验,以展示我们的方法在完全无监督机器翻译中的潜在影响。我们的代码、嵌入和词典均已公开可用。