9 天前
从领域自适应视角重新思考长尾视觉识别中的类别平衡方法
Muhammad Abdullah Jamal, Matthew Brown, Ming-Hsuan Yang, Liqiang Wang, Boqing Gong

摘要
现实世界中各类别出现的频率通常遵循幂律分布,导致机器学习模型所面对的长尾类别分布数据集与我们期望模型在所有类别上均表现良好的目标之间存在不匹配。本文从领域自适应(domain adaptation)的角度分析这一不匹配问题。首先,我们将现有的长尾分类任务中的类别平衡方法与领域自适应中经典的“目标域偏移”(target shift)场景建立联系。分析表明,这些方法隐含地假设训练数据与测试数据具有相同的类别条件分布,而这一假设在一般情况下并不成立,尤其在尾部类别上更为明显。对于头部类别,其训练样本通常丰富且多样,能够较好地代表推理阶段的预期数据分布;而尾部类别则往往缺乏具有代表性的训练样本。针对这一问题,我们提出在经典类别平衡学习的基础上,引入一种基于元学习(meta-learning)的方法,显式估计类别条件分布之间的差异。我们在六个基准数据集和三种损失函数上验证了所提方法的有效性。