11 天前

无监督语法错误修正媲美监督方法

{Hwee Tou Ng, Yuchen Zhang, Liping Yuan, Hannan Cao}
无监督语法错误修正媲美监督方法
摘要

当前最先进的语法错误修正(Grammatical Error Correction, GEC)系统依赖于平行训练数据(即语法错误的句子及其人工修正后的正确版本),而这类数据的构建成本较高。本文提出采用“破坏-修复-评估”(Break-It-Fix-It, BIFI)方法,构建一种无监督的GEC系统。BIFI框架通过一个“修复器”(fixer)将语法错误的句子转换为语法正确的句子,同时利用一个“评判器”(critic)预测句子的语法正确性,从而从无标注文本中自动生成平行数据。本文提出一种无监督方法来构建修复器与评判器,并设计了一种迭代优化算法,使两者能够相互促进、持续改进。我们在英文和中文GEC任务上对所提出的无监督GEC系统进行了评估。实验结果表明,该系统在性能上超越了以往的无监督GEC方法,并且在不使用集成(ensemble)的情况下,达到了与监督学习方法相媲美的效果。此外,当结合少量标注训练数据时,该系统在CoNLL-2014和NLPCC-2018测试集上取得了新的最先进(state-of-the-art)性能。

无监督语法错误修正媲美监督方法 | 最新论文 | HyperAI超神经