9 天前

类别差异化难度平衡损失用于解决类别不平衡问题

Saptarshi Sinha, Hiroki Ohashi, Katsuyuki Nakamura
类别差异化难度平衡损失用于解决类别不平衡问题
摘要

类别不平衡是现实世界数据集中面临的主要挑战之一,其中少数类别(称为多数类)的数据样本数量远超其余类别(称为少数类)。在使用此类数据集训练深度神经网络时,模型性能通常会偏向于多数类。以往的大多数方法通过以不同方式为少数类分配更高权重来缓解类别不平衡问题(例如,数据重采样、代价敏感学习)。然而,我们认为,可用训练数据的数量并不总是判断权重分配策略的可靠依据,因为某些少数类即便仅有少量训练样本,也可能已得到充分表示。对这类类别过度加权反而可能导致模型整体性能下降。我们主张,模型所感知到的“类别难度”才是决定权重分配更为关键的因素。基于此,本文提出一种新型损失函数——类别难度平衡损失(Class-wise Difficulty-Balanced loss,简称 CDB 损失),该损失函数根据样本所属类别的难度动态分配权重。值得注意的是,所分配的权重会随着模型在训练过程中对各类别难度的感知变化而动态调整。我们在图像(人为构造的类别不平衡 MNIST、长尾分布 CIFAR 与 ImageNet-LT)和视频(EGTEA)数据集上进行了大量实验。结果表明,无论数据类型为图像还是视频,CDB 损失在各类别不平衡数据集上均持续优于近期提出的多种损失函数。

类别差异化难度平衡损失用于解决类别不平衡问题 | 最新论文 | HyperAI超神经