11 天前

基于合成数据无监督预训练的神经语法错误纠正系统

{Marcin Junczys-Dowmunt, Roman Grundkiewicz, Kenneth Heafield}
基于合成数据无监督预训练的神经语法错误纠正系统
摘要

为应对神经网络语法错误纠正(GEC)中的数据稀疏问题,已有大量研究投入。本文提出了一种简单而出人意料有效的无监督合成错误生成方法,该方法基于拼写检查器提取的混淆集(confusion sets)生成合成错误数据,从而显著扩充训练数据量。利用这些合成数据对Transformer序列到序列模型进行预训练,不仅超越了在真实标注错误数据上训练的强基线模型,还使得在真实错误标注数据极为有限的场景下,仍能构建出实用的GEC系统。所开发的系统在BEA19共享任务中表现优异,分别在受限(restricted)和低资源(low-resource)赛道上取得了69.47和64.24的F$_{0.5}$得分(测试集为W&I+LOCNESS)。在广泛使用的CoNLL 2014测试集上,提交系统取得了64.16 M${\rm ^2}$的当前最优(state-of-the-art)结果,而基于NUCLE和Lang-8数据训练的受限系统也达到了61.30 M${\rm ^2}$的先进水平。

基于合成数据无监督预训练的神经语法错误纠正系统 | 最新论文 | HyperAI超神经