
要約
単一言語データを用いてニューラル機械翻訳の性能を向上させる効果的な方法は、ターゲット言語の文のバック翻訳を平行コーパスに追加することである。本研究では、バック翻訳の理解を深め、合成ソース文を生成するための数々の手法について調査を行った。その結果、リソースが乏しい状況以外では、サンプリングやノイズ付きビーム出力を通じて得られるバック翻訳が最も効果的であることがわかった。分析によると、サンプリングやノイズ付き合成データは、ビーム検索やグリーディ検索によって生成されたデータよりもはるかに強い学習信号を与えることが示された。また、合成データと実際の双方向テキストとの比較を行い、様々なドメイン効果についても研究した。最後に、数百億の単一言語文を使用してスケーリングし、WMT'14英語-ドイツ語テストセットで35 BLEUという新しい最先端の成果を達成した。注:- "back-translations" を「バック翻訳」と訳しました。- "beam outputs" を「ビーム出力」と訳しました。- "greedy search" を「グリーディ検索」と訳しました。- "BLEU" は一般的な評価指標としてそのまま使用しています。- "WMT'14 English-German test set" を「WMT'14英語-ドイツ語テストセット」と訳しました。