11 天前

DP-SSL:面向少量标注样本的鲁棒半监督学习

Yi Xu, Jiandong Ding, Lu Zhang, Shuigeng Zhou
DP-SSL:面向少量标注样本的鲁棒半监督学习
摘要

标注数据的稀缺性是深度学习面临的关键瓶颈。半监督学习(Semi-Supervised Learning, SSL)通过伪标签机制,为利用未标注数据提供了一条有前景的路径。然而,当标注数据量极小(例如每类仅有少量标注样本)时,现有SSL方法性能显著下降且表现不稳定,这可能源于所生成伪标签质量较低。针对这一问题,本文提出一种新型SSL方法——DP-SSL,其核心在于引入一种创新的数据编程(Data Programming, DP)框架,用于为未标注数据生成概率化标签。与现有DP方法依赖人工专家设计初始标注函数(Labeling Functions, LFs)不同,本文提出一种基于多选学习(Multiple-Choice Learning, MCL)的自动化方法,能够在SSL范式下从零开始自动生成LFs。利用这些LFs产生的噪声标签,我们进一步设计了一个标签模型,以有效解决噪声标签之间的冲突与重叠问题,并最终推断出未标注样本的可靠概率标签。在四个标准SSL基准数据集上的大量实验表明,DP-SSL能够为未标注数据生成高质量且可靠的标签,在测试集上实现优于现有SSL方法的分类性能,尤其在标注样本极为有限的情况下表现突出。具体而言,在仅使用40个标注样本的CIFAR-10数据集上,DP-SSL在未标注数据上的标注准确率达到93.82%,测试集分类准确率达93.46%,均超过当前最优(SOTA)水平。

DP-SSL:面向少量标注样本的鲁棒半监督学习 | 最新论文 | HyperAI超神经