16 天前

编码器-解码器模型在语法错误修正任务中可从预训练的掩码语言模型中获益

Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, Kentaro Inui

摘要

本文研究了如何有效将预训练的掩码语言模型（Masked Language Model, MLM），如BERT，融入编码器-解码器（Encoder-Decoder, EncDec）架构中以实现语法错误纠正（Grammatical Error Correction, GEC）。这一问题的答案并不像人们预期的那样简单直接，因为以往将MLM融入EncDec模型的常用方法在应用于GEC任务时存在潜在缺陷。例如，GEC模型的输入数据分布（如包含语法错误、表达不自然等）与预训练MLM所使用的语料库分布存在显著差异；然而，现有方法并未解决这一问题。我们的实验表明，所提出的改进方法——即先使用特定的GEC语料对MLM进行微调，再将微调后MLM的输出作为额外特征输入到GEC模型中——能够最大程度地发挥MLM的优势。该方法在BEA-2019和CoNLL-2014两个基准测试上均取得了当前最优的性能表现。相关代码已公开，可访问：https://github.com/kanekomasahiro/bert-gec。