
摘要
句法在神经机器翻译(NMT)中已被证明具有很高的有效性。以往的NMT模型通过表示由训练良好的解析系统生成的最佳树输出来整合句法,例如代表性的Tree-RNN和Tree-Linearization方法,这些方法可能会受到错误传播的影响。在本研究中,我们提出了一种新的方法,以隐式方式将源端句法整合到NMT中。基本思路是利用训练良好的端到端依存关系解析器的中间隐藏表示,这些表示被称为句法感知词表示(SAWRs)。然后,我们将这些SAWRs与普通的词嵌入简单拼接,以增强基础的NMT模型。该方法可以方便地集成到广泛使用的序列到序列(Seq2Seq)NMT模型中。我们从一个基于RNN的代表性Seq2Seq基线系统开始,并分别在中文-英文和英文-越南语翻译任务的两个基准数据集上测试了所提出方法的有效性。实验结果表明,与基线相比,所提出的方法在这两个数据集上均能显著提高BLEU分数,中文-英文翻译提高了1.74分,英文-越南语翻译提高了0.80分。此外,该方法还优于显式的Tree-RNN和Tree-Linearization方法。