11 天前
一种简单的多语言语法错误修正配方
Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn

摘要
本文提出了一种简单有效的训练当前最先进多语言语法错误修正(Grammatical Error Correction, GEC)模型的方法。首先,我们提出了一种与语言无关的合成数据生成方法,可大规模生成高质量的合成训练样本;其次,我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后,我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后,我们通过发布一个名为cLang-8的数据集,使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程:我们证明,仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调,即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。