9 天前
在不平衡学习中诱导神经坍缩:深度神经网络末端真的需要一个可学习的分类器吗?
Yibo Yang, Shixiang Chen, Xiangtai Li, Liang Xie, Zhouchen Lin, Dacheng Tao

摘要
目前,用于分类任务的现代深度神经网络通常联合学习一个用于特征表示的主干网络(backbone)以及一个线性分类器,以输出每个类别的原始得分(logit)。近期一项研究揭示了一种称为“神经坍缩”(neural collapse)的现象:在平衡数据集训练的末期,特征的类内均值与分类器向量会收敛至一个等角紧框架(equiangular tight frame, ETF)的顶点。由于ETF的几何结构能够最大程度地分离分类器中所有类别之间的成对夹角,这自然引发了一个问题:既然我们已知分类器的最优几何结构,为何仍需耗费大量精力去学习它?本文研究了在分类神经网络中,将分类器随机初始化为ETF结构并固定不变(即训练过程中不更新)的可行性。基于层剥除模型(layer-peeled model)的理论分析表明,即使在类别不平衡的数据集上,采用固定ETF分类器进行特征学习,也能自然地诱导出神经坍缩状态。进一步地,我们证明在此设定下,交叉熵损失(cross-entropy, CE)并非必需,可被一种简单的平方损失(squared loss)所替代。该平方损失与交叉熵损失具有相同的全局最优性,同时具备更优的收敛性质。实验结果表明,所提出的方法在多个类别不平衡的数据集上均能实现显著性能提升,并且收敛速度更快,验证了固定ETF分类器在实际训练中的有效性与潜力。