17 天前

自解释结构提升NLP模型性能

Zijun Sun, Chun Fan, Qinghong Han, Xiaofei Sun, Yuxian Meng, Fei Wu, Jiwei Li
自解释结构提升NLP模型性能
摘要

现有的自然语言处理(NLP)领域深度学习模型解释方法通常存在两大主要缺陷:(1)主模型与解释模型之间相互脱节:解释过程依赖于额外的探测模型(probing model)或代理模型(surrogate model)来分析已有模型的输出,因此现有的解释工具不具备自解释性;(2)探测模型仅能基于低层级特征(如单个词)计算显著性得分来解释模型预测,难以有效处理高层级文本单元(如短语、句子或段落),解释能力较为生硬。为解决上述两个问题,本文提出了一种简单、通用且高效的自解释框架,适用于NLP中的各类深度学习模型。该框架的核心思想是在任意现有NLP模型之上添加一个额外的“解释层”(interpretation layer)。该层对每个文本片段(text span)的信息进行聚合,并为每个片段分配一个特定权重,随后将这些加权信息进行组合,并输入到softmax函数中以生成最终预测结果。所提出的模型具备以下优势:(1)通过文本片段的权重实现模型的自解释性,无需依赖额外的探测模型进行解释;(2)该框架具有高度通用性,可适配于任何现有的NLP深度学习架构;(3)每个文本片段所对应的权重可直接作为高层级文本单元(如短语、句子或段落)的重要程度评分,从而实现对高层次语义结构的直观解释。本文首次证明:模型的可解释性并不以牺牲性能为代价。实验表明,采用自解释特征的神经模型在性能上优于不具备自解释能力的同类模型,在SST-5数据集上达到59.1的全新最优成绩(SOTA),在SNLI数据集上达到92.3的全新SOTA性能。