2ヶ月前
フレーズベースおよびニューラル非監督機械翻訳
Guillaume Lample; Myle Ott; Alexis Conneau; Ludovic Denoyer; Marc'Aurelio Ranzato

要約
機械翻訳システムは、一部の言語では人間レベルに近い性能を達成していますが、その効果は大量の並行文の可用性に大きく依存しており、これは多くの言語ペアでの適用を妨げています。本研究では、各言語の大規模な単一言語コーパスへのアクセスのみがある場合に翻訳を学習する方法を探ります。私たちはニューラルモデルとフレーズベースモデルの2つのモデル変種を提案します。両方のバージョンは、パラメータの慎重な初期化、言語モデルのノイズ除去効果、および反復的なバック翻訳による並行データの自動生成を利用します。これらのモデルは、文献に記載されている手法よりも著しく優れており、より単純でハイパーパラメータも少ないです。広く使用されているWMT'14英仏翻訳ベンチマークとWMT'16独英翻訳ベンチマークにおいて、私たちのモデルはそれぞれ28.1と25.2のBLEUスコアを達成し、単一の並行文を使用せずに既存の最先端技術を11以上のBLEUポイント上回りました。低リソース言語である英ウルドゥー語や英ルーマニア語においても、私たちの手法は利用可能な少量の並行文を利用する半教師ありおよび教師ありアプローチよりも優れた結果を達成しました。NMT(Neural Machine Translation)とPBSMT(Phrase-Based Statistical Machine Translation)用のコードは公開されています。