
摘要
我们介绍了参与乌克兰语语法错误纠正共享任务(Grammatical Error Correction, GEC)的系统。本研究实现了两种基于大规模预训练语言模型与合成数据的方法,这些方法在英语及低资源语言的错误纠正任务中均已被证明有效。第一种方法采用两阶段微调策略,基于大规模多语言语言模型(mT5):首先在合成数据上进行预微调,随后在真实标注数据(gold data)上进行进一步微调。第二种方法则训练一个在合成数据上预训练的较小规模序列到序列(seq2seq)Transformer模型,并在真实标注数据上进行微调。我们的mT5基线模型在“仅GEC”赛道中取得第一名,在“GEC+流畅性”赛道中获得极为接近的第二名。本工作的两项关键创新在于:(1)采用分阶段微调策略,先在合成数据上训练,再在真实数据上精调;(2)提出一种高质量的文本污染(corruption)方法,基于往返机器翻译(roundtrip machine translation)机制,有效补充了现有的噪声注入(noisification)方法,显著提升了合成数据的质量与实用性。