17 天前

零采样用于可解释且公平的表示

Thomas Kehrenberg, Myles Bartlett, Oliver Thomas, Novi Quadrianto
零采样用于可解释且公平的表示
摘要

我们提出在数据域中学习不变表示,以实现算法公平性中的可解释性。不变性意味着模型能够选择与类别标签标注相关的高层次、关键相关性,同时对与受保护特征(如种族或性别)相关的无关相关性具有鲁棒性。为此,我们构建了一个非平凡的设定:训练集存在显著偏差,导致类别标签标注变得无关,且虚假相关性无法被区分。为应对这一挑战,我们提出一种经过对抗训练的模型,并结合零样本采样(null-sampling)机制,以在数据域中生成不变表示。为实现表示的解耦,我们引入了一个部分标注的代表性数据集。通过将表示映射回数据域,模型所做出的改变可被人类审计者直观检视。我们在图像和表格数据集上验证了该方法的有效性,涵盖彩色MNIST、CelebA以及Adult数据集。