
摘要
随着大规模、真实世界数据集的迅速增加,解决长尾数据分布问题(即少数类占据大多数数据,而多数类则代表性不足)变得至关重要。现有的解决方案通常采用基于每种类别观察数的重采样和重新加权等类别再平衡策略。在本研究中,我们认为随着样本数量的增加,新增数据点带来的额外收益将会逐渐减少。我们引入了一种新的理论框架,通过为每个样本关联一个小邻域区域而非单一数据点来测量数据重叠。有效样本数量被定义为样本的体积,并可以通过一个简单的公式计算得出:$(1-β^{n})/(1-β)$,其中$n$表示样本数量,$β\in [0,1)$是一个超参数。我们设计了一种重新加权方案,利用每个类别的有效样本数量来调整损失函数,从而实现类别平衡的损失。我们在人工诱导的长尾CIFAR数据集以及包括ImageNet和iNaturalist在内的大规模数据集上进行了全面实验。实验结果表明,当使用所提出的类别平衡损失进行训练时,网络能够在长尾数据集上取得显著的性能提升。