9 天前

不平衡学习中重加权与Logit调整的统一泛化分析。论文附代码

{Qingming Huang, Xiaochun Cao, Yuan He, Zhiyong Yang, Qianqian Xu, Zitai Wang}
不平衡学习中重加权与Logit调整的统一泛化分析。论文附代码
摘要

现实世界中的数据集通常呈现类别不平衡的特性,即仅有少数类别拥有大量样本,而多数类别仅包含少量样本。因此,采用朴素的期望风险最小化(ERM)学习方法会导致模型偏向于多数类,难以有效泛化到少数类。为解决这一问题,一种简单但有效的方法是通过修改损失函数,增强对少数类的学习,例如对损失进行重加权,或通过类别相关的项调整logits。然而,现有针对此类损失函数的泛化分析仍较为粗略且碎片化,无法充分解释部分实验现象。为弥合这一理论空白,本文提出一种名为“数据依赖性收缩”(data-dependent contraction)的新技术,用以刻画不同修改后的损失函数如何差异化地处理各类别样本。基于该技术,我们建立了面向类别不平衡学习的细粒度泛化界,从而以统一的视角揭示了损失重加权与logits调整机制的本质。进一步地,基于上述理论洞察,我们设计了一种具有理论依据的学习算法。最后,基于基准数据集的实验结果不仅验证了理论分析的正确性,也充分展示了所提方法的有效性。