11 天前

用于语法纠错的大序列标注器的集成与知识蒸馏

Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk

摘要

本文研究了基于大规模配置的先进Transformer编码器在语法纠错（GEC）序列标注架构中的改进，重点探讨了多种前沿Transformer模型的集成策略。我们采用基于片段级别（span-level）纠错结果的多数投票方式对模型进行集成，该方法对模型架构和词表大小具有较强的鲁棒性。所提出的最优集成模型在BEA-2019测试集上取得了76.05的$F_{0.5}$分数，创下新的SOTA（当前最优）记录，且无需在合成数据集上进行预训练。此外，我们利用训练好的集成模型进行知识蒸馏，生成了两个新的合成训练数据集：“Troy-Blogs”和“Troy-1BW”。基于这些生成的Troy数据集，并结合公开可用的合成PIE数据集进行预训练，我们构建的最优单模型在BEA-2019测试集上取得了接近SOTA的性能，$F_{0.5}$得分为73.21。据我们所知，目前仅有参数量远大于该模型的T5模型在该任务上表现更优。本文所涉及的代码、数据集及训练好的模型均已公开发布。