11 天前

一种简单的多语言语法错误修正配方

Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn

摘要

本文提出了一种简单有效的训练当前最先进多语言语法错误修正（Grammatical Error Correction, GEC）模型的方法。首先，我们提出了一种与语言无关的合成数据生成方法，可大规模生成高质量的合成训练样本；其次，我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后，我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后，我们通过发布一个名为cLang-8的数据集，使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程：我们证明，仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调，即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。