11 天前
基于输入梯度空间对齐的归因鲁棒性训练
Mayank Singh, Nupur Kumari, Puneet Mangla, Abhishek Sinha, Vineeth N Balasubramanian, Balaji Krishnamurthy

摘要
可解释性是可信机器学习领域中一个新兴的研究方向。确保机器学习系统安全部署的关键在于,模型的预测结果及其解释必须具备可靠性与鲁棒性。近期研究表明,仅通过向输入数据添加视觉上难以察觉的扰动,即可轻易操纵模型的解释结果,而模型的预测输出却保持不变。本文针对归因鲁棒性(即模型具备鲁棒解释能力)这一问题展开研究,通过建立输入图像与其解释图之间空间相关性的上界,推导出归因脆弱性的理论上限。为此,我们提出一种新的训练方法——鲁棒归因训练(Robust Attribution Training, \textit{ART}),该方法通过最小化上述上界,并采用软间隔三元组损失(soft-margin triplet loss)来学习具有鲁棒性的特征表示。在多个标准数据集(包括SVHN、CIFAR-10和GTSRB)上,\textit{ART} 方法在归因鲁棒性指标上相较现有最优方法实现了约6%至18%的显著提升,达到新的技术水平。此外,我们进一步验证了所提出的鲁棒训练方法在下游任务中的实用性,特别是在弱监督目标定位任务中,在CUB-200数据集上取得了新的最先进性能。