
摘要
当训练标签分布严重不平衡,或测试数据分布与训练分布存在差异时,神经网络的性能往往会显著下降。为应对由标签不平衡所引发的测试阶段标签分布偏移问题,本文从最优贝叶斯分类器的视角出发,提出了一种后训练先验重平衡技术,该技术可通过基于KL散度的优化方法进行求解。该方法引入一个灵活的后训练超参数,可在验证集上高效调优,并有效调整分类器的决策边界,从而缓解标签不平衡带来的影响。此外,我们将该方法与现有的似然分布偏移(likelihood shift)处理方法相结合,从相同的贝叶斯视角重新诠释这些方法,证明所提出的方法能够以统一的方式同时应对标签不平衡与分布偏移问题。所提出的算法可方便地应用于各类概率分类任务,且对底层网络架构具有完全的无关性。在六个不同数据集和五种不同网络架构上的实验结果表明,该方法在多项任务中均达到了当前最优的分类精度,尤其在大规模不平衡数据集(如用于图像分类的iNaturalist和用于语义分割的Synthia)上表现突出。代码实现详见:https://github.com/GT-RIPL/UNO-IC.git。