
摘要
在语法错误修正模型的训练中,伪数据的引入一直是提高模型性能的主要因素之一。然而,对于实验配置的选择,即如何生成或使用伪数据,目前尚缺乏共识。本研究通过广泛的实验对这些选择进行了调查,并在未对模型架构进行任何修改的情况下,在CoNLL-2014测试集($F_{0.5}=65.0$)和BEA-2019共享任务官方测试集($F_{0.5}=70.2$)上取得了最先进的性能。
在语法错误修正模型的训练中,伪数据的引入一直是提高模型性能的主要因素之一。然而,对于实验配置的选择,即如何生成或使用伪数据,目前尚缺乏共识。本研究通过广泛的实验对这些选择进行了调查,并在未对模型架构进行任何修改的情况下,在CoNLL-2014测试集($F_{0.5}=65.0$)和BEA-2019共享任务官方测试集($F_{0.5}=70.2$)上取得了最先进的性能。