8ヶ月前

概要

ニューラル機械翻訳（NMT）は、並列データのみを使用して訓練を行うことで、いくつかの言語ペアにおいて最先端の性能を達成しています。一方で、ターゲット側の単一言語データは、フレーズベースの統計的機械翻訳において流暢性向上に重要な役割を果たしており、本研究では単一言語データをNMTに活用する方法について調査を行いました。従来の研究では、NMTモデルと別に訓練された言語モデルを組み合わせる手法が採用されていましたが、我々はエンコーダー-デコーダー型NMTアーキテクチャが既に言語モデルと同じ情報を学習する能力を持っていることに注目し、ニューラルネットワークのアーキテクチャを変更せずに単一言語データで訓練するための戦略を探求しました。単一言語訓練データを自動バック翻訳によってペアリングすることで、追加的な並列訓練データとして扱うことができ、WMT 15タスクにおける英独双方向翻訳（+2.8-3.7 BLEU）や低リソースなIWSLT 14タスクにおけるトルコ語→英語翻訳（+2.1-3.4 BLEU）で大幅な改善が得られました。これらの結果により新たな最先端性能が達成されました。また、ドメイン内での単一言語および並列データによる微調整がIWSLT 15タスクにおける英語→ドイツ語翻訳でも大幅な改善につながることを示しました。

ソースPDF