基于网络监督的图像分类方法:自包含置信度

本文聚焦于弱监督学习(Webly Supervised Learning, WSL),其中数据集通过从互联网爬取样本并直接将搜索查询作为网页标签来构建。尽管WSL在数据采集方面具有快速且低成本的优势,但网页标签中普遍存在的噪声严重制约了图像分类模型的性能提升。为缓解这一问题,近期研究通常将自标签监督损失 $\mathcal{L}_s$ 与弱监督学习损失 $\mathcal{L}_w$ 联合使用。其中,$\mathcal{L}_s$ 依赖于模型自身预测的伪标签。由于每个网页样本的网页标签或伪标签的准确性往往具有样本依赖性,因此在样本层面动态调整 $\mathcal{L}_s$ 与 $\mathcal{L}_w$ 之间的平衡显得尤为重要。受深度神经网络(Deep Neural Networks, DNNs)在置信度预测方面能力的启发,本文提出一种名为自包含置信度(Self-Contained Confidence, SCC)的新方法,通过适配模型不确定性来适应WSL场景,并利用该置信度实现对 $\mathcal{L}_s$ 与 $\mathcal{L}_w$ 的样本级动态平衡。由此,我们构建了一个简洁而高效的WSL框架。为进一步提升置信度的质量,本文系统研究了一系列与SCC兼容的正则化策略,其中提出的图增强混合样本方法(graph-enhanced mixup)表现最为出色,能够有效生成高质量的置信度估计,显著增强框架性能。所提出的WSL框架在两个大规模WSL数据集——WebVision-1000和Food101-N上均取得了当前最优(state-of-the-art)的实验结果。相关代码已开源,地址为:https://github.com/bigvideoresearch/SCC。