11 天前

用于语法纠错的大序列标注器的集成与知识蒸馏

Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk
用于语法纠错的大序列标注器的集成与知识蒸馏
摘要

本文研究了基于大规模配置的先进Transformer编码器在语法纠错(GEC)序列标注架构中的改进,重点探讨了多种前沿Transformer模型的集成策略。我们采用基于片段级别(span-level)纠错结果的多数投票方式对模型进行集成,该方法对模型架构和词表大小具有较强的鲁棒性。所提出的最优集成模型在BEA-2019测试集上取得了76.05的$F_{0.5}$分数,创下新的SOTA(当前最优)记录,且无需在合成数据集上进行预训练。此外,我们利用训练好的集成模型进行知识蒸馏,生成了两个新的合成训练数据集:“Troy-Blogs”和“Troy-1BW”。基于这些生成的Troy数据集,并结合公开可用的合成PIE数据集进行预训练,我们构建的最优单模型在BEA-2019测试集上取得了接近SOTA的性能,$F_{0.5}$得分为73.21。据我们所知,目前仅有参数量远大于该模型的T5模型在该任务上表现更优。本文所涉及的代码、数据集及训练好的模型均已公开发布。

用于语法纠错的大序列标注器的集成与知识蒸馏 | 最新论文 | HyperAI超神经