
摘要
本文研究了GPT-3.5在多种语言中进行语法错误纠正(Grammatical Error Correction, GEC)的应用,涵盖三种不同场景:零样本GEC(zero-shot GEC)、基于GEC任务的微调,以及利用GPT-3.5对其他GEC模型生成的纠正候选句进行重排序(re-ranking)。在零样本设置下,我们采用多种方法对GPT-3.5提出的纠正结果进行了自动评估:通过语言模型(LMs)估算句子的语法正确性、使用Scribendi测试,以及比较句子间的语义嵌入(semantic embeddings)。 已知GPT-3.5存在过度纠正错误句子并提出替代性修正的倾向。对于捷克语、德语、俄语、西班牙语和乌克兰语等多种语言,GPT-3.5在很大程度上改变了原始句子,甚至影响了其语义内涵,这给基于参考句的评估指标带来了显著挑战。相比之下,在英语任务中,GPT-3.5表现出较高的召回率,能够生成流畅的纠正结果,并较好地保持原句语义。然而,对英语和俄语的真人评估结果表明,尽管GPT-3.5具备较强的错误检测能力,但在处理若干特定错误类型时仍存在明显不足,包括标点符号错误、时态错误、词间句法依存关系错误,以及句子层面的词汇搭配不一致问题。