
摘要
近年来,半监督学习(Semi-Supervised Learning, SSL)方法主要集中在多分类任务上。这类任务在数据增强过程中可轻松混合类别标签,但这一策略难以直接推广至结构化输出任务,例如图像字幕生成中的词序列输出。Noisy Student Training 是一种近期提出的用于图像分类的半监督学习范式,可视为自训练(self-training)与教师-学生学习(teacher-student learning)的扩展。在本研究中,我们对 Noisy Student SSL 框架在图像字幕任务中的应用进行了深入分析,并取得了当前最优的实验结果。原始算法依赖于计算成本较高的数据增强步骤,包括对原始图像进行扰动,并为每张扰动后的图像重新计算特征。我们发现,即使不使用原始图像的增强,仅通过对学生模型的输入图像施加简单的模型扰动和特征扰动,也能显著提升半监督学习的训练效果。此外,我们进一步展示了如何有效利用释义生成器(paraphrase generator)进行标签增强,从而提升伪标签的质量,显著改善模型性能。在标注数据极度有限的设定下(仅使用 MS-COCO 数据集中 1% 的标注数据),我们的最终结果在 BLEU4 指标上优于先前最优方法 2.5 分,在 CIDEr 指标上提升达 11.5 分,展现出显著的性能优势。