11 天前

通过最大编码率缩减原则学习多样且具有判别性的表示

Yaodong Yu, Kwan Ho Ryan Chan, Chong You, Chaobing Song, Yi Ma
通过最大编码率缩减原则学习多样且具有判别性的表示
摘要

为了从高维数据中学习具有判别性的内在低维结构,我们提出了最大编码率降低(Maximal Coding Rate Reduction, $\text{MCR}^2$)原则。这是一种信息论度量方法,旨在最大化整个数据集与各单独类别编码率之和之间的差异。我们阐明了该方法与现有主流框架(如交叉熵、信息瓶颈、信息增益、收缩学习与对比学习)之间的内在联系,并为学习多样化且具有判别性的特征提供了理论保障。$\text{MCR}^2$ 的编码率可基于退化子空间类分布的有限样本进行精确计算,能够在监督学习、自监督学习和无监督学习等不同设置下,以统一的方式学习数据的内在表示。实验结果表明,仅基于该原则学习到的表示在分类任务中对标签噪声具有显著更强的鲁棒性,相较于使用交叉熵的方法,且能够利用自学习的不变特征,在混合数据聚类任务中实现当前最优的性能。

通过最大编码率缩减原则学习多样且具有判别性的表示 | 最新论文 | HyperAI超神经