11 天前

类别感知的对比半监督学习

Fan Yang, Kai Wu, Shuyi Zhang, Guannan Jiang, Yong Liu, Feng Zheng, Wei Zhang, Chengjie Wang, Long Zeng
类别感知的对比半监督学习
摘要

基于伪标签的半监督学习(Pseudo-label-based Semi-Supervised Learning, SSL)在原始数据利用方面取得了显著进展。然而,其训练过程因自生成人工标签中包含的噪声而容易受到确认偏差(confirmation bias)的影响。此外,在现实应用场景中,当面对大量分布外(out-of-distribution, OOD)数据时,模型的判断能力也会随之恶化,导致性能下降。为解决上述问题,本文提出一种通用性方法——类别感知对比半监督学习(Class-aware Contrastive Semi-Supervised Learning, CCSSL),该方法可作为即插即用的辅助模块,有效提升伪标签质量,并增强模型在真实场景下的鲁棒性。与以往将现实世界数据视为统一集合的做法不同,CCSSL对数据进行差异化处理:针对可靠的分布内(in-distribution)数据,采用类别感知的聚类策略进行融合,以提升下游任务的表征能力;而对于噪声较多的分布外数据,则通过图像级别的对比学习机制,促进模型的泛化能力。此外,通过引入目标重加权(target re-weighting)策略,CCSSL能够有效强化干净标签的学习过程,同时抑制噪声标签带来的负面影响。尽管方法设计简洁,但在标准数据集CIFAR100和STL10上,CCSSL相较于当前最先进的SSL方法展现出显著的性能提升。在真实世界数据集Semi-iNat 2021上,相较于FixMatch和CoMatch,分别实现了9.80%和3.18%的性能提升。相关代码已开源,地址为:https://github.com/TencentYoutuResearch/Classification-SemiCLS。

类别感知的对比半监督学习 | 最新论文 | HyperAI超神经