7 天前

基于掩码对抗训练提升序列标注的鲁棒性

{Jianhua Lu, Weitong Ruan, Xinyue Liu, Luoxin Chen}
基于掩码对抗训练提升序列标注的鲁棒性
摘要

对抗训练(Adversarial Training, AT)通过引入微小的输入扰动,显著提升了深度学习模型的正则化效果,增强了模型的鲁棒性。在自然语言处理任务中,对抗训练通过添加输入噪声实现词级别的鲁棒性提升,对文本分类任务具有明显益处。然而,该方法在增强上下文信息方面能力有限,因此在序列标注任务(如短语切分和命名实体识别,NER)中的表现较为不足。为克服这一局限,本文提出一种掩码式对抗训练(Masked Adversarial Training, MAT),旨在通过利用上下文信息提升序列标注任务的鲁棒性。MAT在计算扰动输入的对抗损失时,对句子中的部分词语进行掩码或替换,从而促使模型在更丰富的上下文语境下学习,增强其对输入扰动的鲁棒性。实验结果表明,所提方法在序列标注任务的准确率和鲁棒性方面均取得了显著提升。进一步结合ELMo词嵌入后,模型在CoNLL 2000和CoNLL 2003基准测试中取得了优于或相当当前最先进水平的结果,且所用参数量远低于现有方法。