2 个月前
将神经语法错误修正视为低资源机器翻译任务
Marcin Junczys-Dowmunt; Roman Grundkiewicz; Shubha Guha; Kenneth Heafield

摘要
此前,神经网络方法在语法错误纠正(GEC)方面未能达到与短语基统计机器翻译(SMT)基线相比的最先进水平。我们展示了神经网络GEC与低资源神经网络机器翻译(NMT)之间的相似之处,并成功地将几种低资源NMT的方法应用于神经网络GEC。此外,我们制定了神经网络GEC中可信赖结果的指导原则,并提出了一套模型无关的方法,这些方法可以轻松应用于大多数GEC场景。所提出的方法包括增加源端噪声、领域适应技术、特定于GEC的训练目标、利用单语数据进行迁移学习以及独立训练的GEC模型和语言模型的集成。这些方法的综合效果使得我们的神经网络GEC模型优于先前的最佳神经网络GEC系统,在CoNLL-2014基准测试中性能提高了超过10%的M$^2$分数,在JFLEG测试集中则提高了5.9%。非神经网络最先进系统在CoNLL-2014基准测试中的表现被超越了超过2%,而在JFLEG测试集上则被超越了4%。