7 个月前

自然语言处理

自然语言处理

Shuo Ren†* Zhirui Zhang† Shujie Liu§ Ming Zhou§ Shuai Ma†

摘要

在没有真实双语语料库的情况下，无监督神经机器翻译（NMT）通常需要通过回译方法生成伪平行数据来进行模型训练。然而，由于监督较弱，伪数据中不可避免地会包含噪声和错误，这些噪声和错误会在后续的训练过程中逐渐积累并被强化，从而导致翻译性能不佳。为了解决这一问题，我们引入了对噪声数据具有鲁棒性的基于短语的统计机器翻译（SMT）模型，作为后验正则化来指导无监督NMT模型在迭代回译过程中的训练。我们的方法从使用预训练语言模型和从跨语言嵌入推断出的词级翻译表构建的SMT模型开始。然后，在统一的EM框架下，SMT和NMT模型联合优化，并逐步相互增强。这样，(1) 由迭代回译过程中错误引起的负面影响可以通过SMT从其短语表中过滤噪声而及时缓解；同时，(2) NMT可以弥补SMT固有的流畅性不足。在英法（en-fr）和英德（en-de）翻译任务上的实验表明，我们的方法优于强大的基线方法，并实现了新的无监督机器翻译性能最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Shuo Ren†* Zhirui Zhang† Shujie Liu§ Ming Zhou§ Shuai Ma†

摘要

在没有真实双语语料库的情况下，无监督神经机器翻译（NMT）通常需要通过回译方法生成伪平行数据来进行模型训练。然而，由于监督较弱，伪数据中不可避免地会包含噪声和错误，这些噪声和错误会在后续的训练过程中逐渐积累并被强化，从而导致翻译性能不佳。为了解决这一问题，我们引入了对噪声数据具有鲁棒性的基于短语的统计机器翻译（SMT）模型，作为后验正则化来指导无监督NMT模型在迭代回译过程中的训练。我们的方法从使用预训练语言模型和从跨语言嵌入推断出的词级翻译表构建的SMT模型开始。然后，在统一的EM框架下，SMT和NMT模型联合优化，并逐步相互增强。这样，(1) 由迭代回译过程中错误引起的负面影响可以通过SMT从其短语表中过滤噪声而及时缓解；同时，(2) NMT可以弥补SMT固有的流畅性不足。在英法（en-fr）和英德（en-de）翻译任务上的实验表明，我们的方法优于强大的基线方法，并实现了新的无监督机器翻译性能最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供