
摘要
我们开发了一套用于德语的语法错误修正(GEC)系统,该系统基于一个小型高质量GEC语料库,并通过从维基百科修订历史中提取的编辑记录进行扩充。我们对自动错误标注工具ERRANT(Bryant et al., 2017)进行了德语适配,并利用该工具分析高质量GEC修正结果以及维基百科编辑记录(Grundkiewicz and Junczys-Dowmunt, 2014),以筛选出与高质量语料库中语法修正类型相似的维基百科编辑作为额外训练数据。在此基础上,我们采用多层卷积编码器-解码器神经网络GEC方法(Chollampatt and Ng, 2018)进行实验,评估维基百科编辑数据的贡献。实验结果表明,经过精心筛选的维基百科编辑数据可使系统性能提升超过5%。