HyperAIHyperAI

Command Palette

Search for a command to run...

用于语法纠错的大序列标注器的集成与知识蒸馏

Maksym Tarnavskyi Artem Chernodub Kostiantyn Omelianchuk

摘要

本文研究了基于大规模配置的先进Transformer编码器在语法纠错(GEC)序列标注架构中的改进,重点探讨了多种前沿Transformer模型的集成策略。我们采用基于片段级别(span-level)纠错结果的多数投票方式对模型进行集成,该方法对模型架构和词表大小具有较强的鲁棒性。所提出的最优集成模型在BEA-2019测试集上取得了76.05的F0.5F_{0.5}F0.5分数,创下新的SOTA(当前最优)记录,且无需在合成数据集上进行预训练。此外,我们利用训练好的集成模型进行知识蒸馏,生成了两个新的合成训练数据集:“Troy-Blogs”和“Troy-1BW”。基于这些生成的Troy数据集,并结合公开可用的合成PIE数据集进行预训练,我们构建的最优单模型在BEA-2019测试集上取得了接近SOTA的性能,F0.5F_{0.5}F0.5得分为73.21。据我们所知,目前仅有参数量远大于该模型的T5模型在该任务上表现更优。本文所涉及的代码、数据集及训练好的模型均已公开发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供