17 天前
面向Transformer的XAI:通过保守传播实现更优的解释
Ameen Ali, Thomas Schnake, Oliver Eberle, Grégoire Montavon, Klaus-Robert Müller, Lior Wolf

摘要
Transformer 已成为机器学习领域的重要基础模型,广泛应用于各类任务。这一趋势促使人们亟需发展可靠的可解释性方法以提升模型透明度。目前已有多种基于梯度信息的可解释性方法被提出。然而,我们发现 Transformer 中的梯度仅能反映局部函数特性,因此难以可靠地识别输入特征对模型预测的贡献。我们进一步揭示,注意力头(Attention Heads)和层归一化(LayerNorm)是导致解释结果不可靠的主要原因,并提出了一种更为稳定的前向传播机制以应对这些层的影响。所提出的方案可被视为对经典 LRP 方法在 Transformer 模型上的合理扩展。理论分析与实证研究均表明,该方法有效克服了简单梯度方法的局限性,在多种 Transformer 模型与数据集上均实现了当前最优的可解释性性能。