
摘要
可用训练数据的短缺正在阻碍自动化错误检测领域的进展。本文研究了两种用于人工生成写作错误的方法,以创建额外的资源。我们提出将错误生成视为一项机器翻译任务,即将语法正确的文本翻译为包含错误的文本。此外,我们还探讨了一种从注释语料库中提取文本模式的系统,这些模式可以用来在语法正确的句子中插入错误。实验结果表明,在FCE和CoNLL 2014数据集上,加入人工生成的错误显著提高了错误检测的准确性。
可用训练数据的短缺正在阻碍自动化错误检测领域的进展。本文研究了两种用于人工生成写作错误的方法,以创建额外的资源。我们提出将错误生成视为一项机器翻译任务,即将语法正确的文本翻译为包含错误的文本。此外,我们还探讨了一种从注释语料库中提取文本模式的系统,这些模式可以用来在语法正确的句子中插入错误。实验结果表明,在FCE和CoNLL 2014数据集上,加入人工生成的错误显著提高了错误检测的准确性。