
摘要
分布鲁棒监督学习(DRSL)对于构建可靠的机器学习系统是必要的。当机器学习模型在现实世界中部署时,其性能可能会显著下降,因为测试数据可能遵循与训练数据不同的分布。通过最小化对抗性重加权训练损失,基于f-散度的DRSL显式地考虑了最坏情况下的分布偏移。本文中,我们分析了这种DRSL,重点关注分类场景。由于DRSL是为应对分布偏移而明确设计的,因此我们自然期望它能够提供一个鲁棒的分类器,以积极应对偏移的分布。然而,令人惊讶的是,我们证明了DRSL最终仅提供了一个完全拟合给定训练分布的分类器,这过于悲观。这种悲观性源自两个方面:分类中使用的特定损失函数以及DRSL试图对其保持鲁棒性的分布种类过于广泛。受此分析的启发,我们提出了一种简单的DRSL方法来克服这一悲观性,并通过实证研究展示了其有效性。