
摘要
深度神经网络(DNNs)是强大的模型,在复杂的机器学习任务中表现出色。尽管在有大量标记训练集的情况下,DNNs 能够很好地工作,但它们无法用于序列到序列的映射。本文提出了一种对序列结构假设最少的端到端序列学习方法。该方法使用多层长短期记忆网络(LSTM)将输入序列映射到一个固定维度的向量,然后通过另一个深层 LSTM 从该向量解码出目标序列。我们的主要结果是在 WMT'14 数据集上的英法翻译任务中,LSTM 生成的翻译在整个测试集上达到了 34.8 的 BLEU 分数,其中 LSTM 的 BLEU 分数因词汇表外单词而被扣分。此外,LSTM 在处理长句时没有遇到困难。作为对比,基于短语的统计机器翻译系统在同一数据集上仅达到 33.3 的 BLEU 分数。当我们使用 LSTM 对上述统计机器翻译系统生成的 1000 个假设进行重排序时,其 BLEU 分数提高到了 36.5,接近此前该任务的最佳结果。LSTM 还学会了合理的短语和句子表示方法,这些表示对词序敏感,并且在主动语态和被动语态之间相对不变。最后,我们发现将所有源句子中的词序反转(但不包括目标句子)显著提高了 LSTM 的性能,因为这样做引入了许多源句子和目标句子之间的短期依赖关系,从而简化了优化问题。