
摘要
深度图像分类器已被发现从数据集中学习到偏见。为了减轻这些偏见,大多数先前的方法需要受保护属性(如年龄、肤色)的完全监督标签,这存在两个局限性:1)当标签不可用时,这种方法是不可行的;2)它们无法减轻未知偏见——即人类未预见到的偏见。为了解决这些问题,我们提出了一种去偏网络(Debiasing Alternate Networks, DebiAN),该网络由两个部分组成——一个发现者和一个分类器。通过交替训练的方式,发现者试图在没有任何偏见注释的情况下找到分类器的多个未知偏见,而分类器则旨在消除发现者识别出的偏见。尽管以往的研究通常仅针对单一偏见评估去偏效果,我们创建了多色MNIST数据集以更好地在多偏见环境中基准测试对多个偏见的缓解情况。这不仅揭示了先前方法中的问题,还展示了DebiAN在同时识别和减轻多个偏见方面的优势。此外,我们在现实世界的数据集上进行了广泛的实验,结果表明DebiAN中的发现者可以识别出可能难以被人类发现的未知偏见。在去偏方面,DebiAN实现了强大的偏见缓解性能。