7ヶ月前

概要

実際の双方向コーパスが利用できない場合、非監督型ニューラル機械翻訳（NMT）は通常、モデル訓練のためにバック翻訳手法で生成された擬似並行データを必要とします。しかし、弱い監督のため、擬似データにはノイズや誤りが含まれることが避けられず、これらのノイズや誤りは後続の訓練プロセスで累積され、強化されるため、翻訳性能が悪化する可能性があります。この問題に対処するために、我々はノイジーなデータに堅牢であるフレーズベースの統計的機械翻訳（SMT）モデルを導入し、反復的なバック翻訳プロセスにおける非監督型NMTモデルの訓練をガイドするための事後正則化として使用します。我々の方法は、事前学習済み言語モデルを使用して構築されたSMTモデルと、クロスリンガル埋め込みから推論された単語レベルの翻訳表に基づいて開始されます。その後、SMTとNMTモデルは統一されたEMフレームワーク内で共同で最適化され、互いに段階的に強化されます。これにより、(1) 反復的なバック翻訳プロセスで発生するエラーによる負の影響が、SMTのフレーズテーブルからのノイズフィルタリングによってタイムリーに軽減されるとともに、(2) NMTはSMTに内在する流暢性の欠如を補完することができます。英仏（en-fr）および英独（en-de）翻訳タスクでの実験結果によると、我々の方法は強力な基準を超えており、新しい最先端の非監督型機械翻訳性能を達成しています。

ソースPDF