
要約
ニューラル機械翻訳(NMT)は、ニューラルネットワークを使用して機械翻訳(MT)の問題を解決することを目指しており、近年有望な結果を示しています。しかし、既存の大多数のNMTモデルは浅層であり、単一のNMTモデルと最良の従来のMTシステムとの間にまだ性能差が存在します。本研究では、深層長短期記憶(LSTM)ネットワークに基づく新しい種類の線形接続である「ファストフォワード接続」およびLSTM層を積み重ねるための中間双方向アーキテクチャを導入します。ファストフォワード接続は勾配伝播と16層の深層トポロジー構築において重要な役割を果たします。WMT'14英仏翻訳タスクにおいて、単一の注意機構付きモデルでBLEU=37.7を達成し、対応する単一の浅層モデルよりも6.2 BLEUポイント優れています。これは単一のNMTモデルが最先端の性能を達成し、最良の従来型モデルよりも0.7 BLEUポイント優れているという初めての事例です。注意機構を使用せずにBLEU=36.3も達成できます。未知語の特別な処理とモデルアンサンブルを行った後、このタスクにおけるこれまで報告された最高スコアであるBLEU=40.4を得ました。また、より難しいWMT'14英独翻訳タスクでも当該モデルが有効であることを確認しています。