2 个月前

“我为什么要信任你?”:解释任意分类器的预测结果

Ribeiro, Marco Tulio ; Singh, Sameer ; Guestrin, Carlos
“我为什么要信任你?”:解释任意分类器的预测结果
摘要

尽管机器学习模型已被广泛采用,但它们大多仍然是黑箱模型。然而,了解预测背后的原因对于评估信任度至关重要,这是在基于预测采取行动或决定是否部署新模型时的基础。这种理解还为模型提供了洞见,可以用于将不可信的模型或预测转化为可信的模型或预测。在这项工作中,我们提出了一种新的解释技术——LIME(局部可解释模型),该技术通过在预测周围学习一个可解释的局部模型来以一种可解释且忠实的方式解释任何分类器的预测结果。我们还提出了一种方法,通过展示具有代表性的单个预测及其解释,并将其作为一个次模优化问题来解决,从而以非冗余的方式解释模型。我们通过解释不同的文本分类(例如随机森林)和图像分类(例如神经网络)模型展示了这些方法的灵活性。我们通过新颖的实验(包括模拟实验和真人实验)在各种需要信任的情境下展示了解释的价值:判断是否应该信任某个预测、选择合适的模型、改进不可信的分类器以及识别为何某个分类器不应被信任。