7 个月前

自然语言处理

自然语言处理

Mikel Artetxe; Gorka Labaka; Eneko Agirre

摘要

虽然现代机器翻译依赖于大规模平行语料库，但近期的一些研究已经成功地仅从单语语料库训练神经机器翻译（NMT）系统（Artetxe等人，2018c；Lample等人，2018）。尽管这种方法在低资源环境下具有潜在优势，现有的系统仍远落后于有监督的系统，限制了其实际应用价值。本文提出了一种基于短语统计机器翻译（SMT）的替代方法，显著缩小了与有监督系统的差距。我们的方法利用了SMT的模块化架构：首先通过跨语言嵌入映射从单语语料库中生成短语表，然后将其与n元语言模型结合，并通过无监督的MERT变体微调超参数。此外，迭代回译进一步提高了结果，在WMT 2014英德和英法翻译任务中分别达到了14.08和26.22的BLEU分数，比之前的无监督系统提高了7-10个BLEU点，并将与有监督SMT（使用Europarl数据集训练的Moses系统）之间的差距缩小到2-5个BLEU点。我们的实现代码可在https://github.com/artetxem/monoses 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Mikel Artetxe; Gorka Labaka; Eneko Agirre

摘要

虽然现代机器翻译依赖于大规模平行语料库，但近期的一些研究已经成功地仅从单语语料库训练神经机器翻译（NMT）系统（Artetxe等人，2018c；Lample等人，2018）。尽管这种方法在低资源环境下具有潜在优势，现有的系统仍远落后于有监督的系统，限制了其实际应用价值。本文提出了一种基于短语统计机器翻译（SMT）的替代方法，显著缩小了与有监督系统的差距。我们的方法利用了SMT的模块化架构：首先通过跨语言嵌入映射从单语语料库中生成短语表，然后将其与n元语言模型结合，并通过无监督的MERT变体微调超参数。此外，迭代回译进一步提高了结果，在WMT 2014英德和英法翻译任务中分别达到了14.08和26.22的BLEU分数，比之前的无监督系统提高了7-10个BLEU点，并将与有监督SMT（使用Europarl数据集训练的Moses系统）之间的差距缩小到2-5个BLEU点。我们的实现代码可在https://github.com/artetxem/monoses 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供