
摘要
文本编辑任务,包括句子合并、句子拆分、句式重构、文本简化以及语法错误纠正(Grammatical Error Correction, GEC),具有一个共同特征:其输入与输出序列高度相似。该研究领域处于两个成熟技术方向的交叉点上:(i)广泛应用于神经机器翻译(Neural Machine Translation, NMT)等任务的完全自回归序列到序列(sequence-to-sequence)方法;以及(ii)常用于词性标注、命名实体识别(Named-Entity Recognition, NER)等任务的序列标注技术。为实现架构上的平衡,研究者们提出了多种富有创意且非传统的解决方案,相关内容将在“相关工作”部分进行讨论。本文提出的方法称为 RedPenNet,旨在减少特定“序列到编辑”(Sequence-To-Edits)模型中存在的架构冗余与参数冗余,同时保留其半自回归(semi-autoregressive)结构的优势。在 BEA-2019(测试集)基准上,我们的模型取得了 77.60 的 $F_{0.5}$ 分数,可视为当前最先进水平,仅略逊于系统集成方法;在 UAGEC+Fluency(测试集)基准上,得分达到 67.71。本研究是在 UNLP 2023 工作坊背景下开展的,相关成果以论文形式提交,作为该工作坊“乌克兰语语法错误纠正(GEC)共享任务”的参赛作品。本研究旨在将 RedPenNet 方法应用于乌克兰语的语法错误纠正任务,探索其在低资源语言场景下的有效性与适应性。