2ヶ月前
低リソース機械翻訳タスクとしてのニューラル文法誤り訂正へのアプローチ
Marcin Junczys-Dowmunt; Roman Grundkiewicz; Shubha Guha; Kenneth Heafield

要約
以前、文法誤り訂正(GEC)におけるニューラル手法は、フレーズベースの統計的機械翻訳(SMT)の基準に比べて最先端の結果には達していませんでした。本研究では、ニューラルGECと低リソースニューラル機械翻訳(MT)との類似性を示し、低リソースMTからいくつかの手法を成功裏にニューラルGECに適応させました。さらに、信頼性のある結果を得るためのニューラルGECに関するガイドラインを確立し、モデルに依存しない方法論の一式を提案しています。これらの方法は、ほとんどのGEC設定で容易に適用できます。提案された方法には、入力側ノイズの追加、ドメイン適応技術、GEC特有の学習目標、単語言語データを使用した転移学習、独立して訓練されたGECモデルと言語モデルのアンサンブルが含まれます。これらの手法の組み合わせ効果により、CoNLL-2014ベンチマークにおいて従来の最良のニューラルGECシステムよりも10%以上のM²スコア改善を達成し、JFLEGテストセットでは5.9%以上の改善が見られました。また、非ニューラル系の最先端システムもCoNLL-2014ベンチマークで2%以上、JFLEGで4%以上上回っています。