1 个月前

基于对抗训练的鲁棒性多语言词性标注

Michihiro Yasunaga; Jungo Kasai; Dragomir Radev
基于对抗训练的鲁棒性多语言词性标注
摘要

对抗训练(Adversarial Training, AT)是一种强大的神经网络正则化方法,旨在实现对输入扰动的鲁棒性。然而,在自然语言处理的背景下,通过AT获得的鲁棒性的具体效果仍不明确。在本文中,我们提出并分析了一种利用AT的神经词性标注模型。我们在Penn Treebank WSJ语料库和Universal Dependencies(UD)数据集(涵盖27种语言)上进行了实验,发现AT不仅提高了整体标注准确性,还具有以下优势:1)在低资源语言中有效防止过拟合;2)提高罕见/未见词汇的标注准确性。此外,我们还证明了3)通过AT改进的标注性能有助于下游任务——依存句法分析;4)AT有助于模型学习更干净的词表示。5)所提出的AT模型在不同的序列标注任务中普遍有效。这些积极的结果激励了进一步将AT应用于自然语言处理任务。

基于对抗训练的鲁棒性多语言词性标注 | 最新论文 | HyperAI超神经