2 个月前

深度网络的公理化归因

Sundararajan, Mukund ; Taly, Ankur ; Yan, Qiqi
深度网络的公理化归因
摘要

我们研究了将深度网络的预测归因于其输入特征的问题,这一问题此前已有多项研究探讨过。我们确定了归因方法应当满足的两个基本公理——敏感性和实现不变性(Sensitivity and Implementation Invariance)。我们证明,大多数已知的归因方法未能满足这两个公理,我们认为这是这些方法的一个根本弱点。我们利用这两个公理指导设计了一种新的归因方法,称为积分梯度(Integrated Gradients)。该方法无需对原始网络进行任何修改,并且实现极其简单;只需要调用几次标准的梯度运算即可。我们将这种方法应用于几个图像模型、几个文本模型以及一个化学模型,展示了其在网络调试、从网络中提取规则以及增强用户与模型互动能力方面的有效性。