
摘要
深度学习在使用大规模人工平衡数据集进行图像识别时,能够实现卓越的性能。然而,现实世界中的数据集通常呈现出严重的类别不平衡分布,由此引发两大核心挑战:类别间的相对不平衡,以及中等样本量(medium-shot)或少样本量(few-shot)类别的数据稀缺问题。在本研究中,我们针对长尾识别问题展开研究,其中训练集高度不平衡,而测试集保持平衡。与现有依赖数据重采样、代价敏感学习、在线难例挖掘、损失函数重构以及基于记忆的建模等范式不同,我们提出了一种由类别平衡专家组成的集成模型,充分融合了多种分类器的优势。该类别平衡专家集成模型在性能上接近当前最先进水平,而其扩展版本在两个长尾识别基准测试中均取得了新的最先进成果。我们通过大量实验对集成模型的性能进行了深入分析,结果发现,在现代大规模数据集中,相对不平衡问题比数据稀缺问题更具挑战性。相关训练与评估代码已开源,地址为:https://github.com/ssfootball04/class-balanced-experts。