2 个月前
基于弱监督检测的知识蒸馏用于多标签图像分类
Yongcheng Liu; Lu Sheng; Jing Shao; Junjie Yan; Shiming Xiang; Chunhong Pan

摘要
多标签图像分类是实现通用视觉理解的一项基本但具有挑战性的任务。现有的方法发现,区域级线索(例如,来自感兴趣区域(RoIs)的特征)可以促进多标签分类。然而,这些方法通常需要繁琐的对象级注释(即对象标签和边界框)来有效学习对象级别的视觉特征。在本文中,我们提出了一种新颖且高效的深度框架,通过从弱监督检测任务中提取知识来提升多标签分类性能,而无需边界框注释。具体而言,给定图像级别的注释,(1) 我们首先开发了一个弱监督检测(WSD)模型,然后 (2) 构建了一个端到端的多标签图像分类框架,并通过一个知识蒸馏模块进行增强。该模块根据整个图像的类别级别预测和对象 RoIs 的对象级别视觉特征,由 WSD 模型指导分类模型。WSD 模型作为教师模型,分类模型作为学生模型。经过这种跨任务的知识蒸馏后,分类模型的性能显著提高,并且效率得以保持,因为 WSD 模型可以在测试阶段安全地被丢弃。在两个大规模数据集(MS-COCO 和 NUS-WIDE)上的大量实验表明,我们的框架在性能和效率方面均优于现有最先进方法。