
要約
最近のニューラル機械翻訳(NMT)は標準的なベンチマークで成功を収めていますが、多くの言語ペアにおいて大規模な並行コーパスの不足が実践上の大きな問題となっています。この問題を緩和するため、三角測量や半教師あり学習技術などの提案がいくつかありますが、これらも依然として強いクロスリンギアル信号が必要です。本研究では、並行データの必要性を完全に排除し、単一言語コーパスのみを使用して完全に教師なしでNMTシステムを訓練する新しい方法を提案します。当モデルは最近の教師なし埋め込みマッピングに関する研究に基づいており、ノイズ除去と逆翻訳の組み合わせを使用して単一言語コーパスだけで訓練できる、若干改良された注意機構付きエンコーダー-デコーダーモデルから構成されています。この手法の単純さにもかかわらず、当システムはWMT 2014フランス語-英語翻訳とドイツ語-英語翻訳でそれぞれ15.56および10.21のBLEUスコアを得ました。また、小さな並行コーパスを利用することも可能であり、10万件の並行文と組み合わせた場合、それぞれ21.81および15.24ポイントを達成しました。当実装はオープンソースプロジェクトとして公開されています。