2 个月前
基于多模态知识迁移的开放词汇多标签分类
He, Sunan ; Guo, Taian ; Dai, Tao ; Qiao, Ruizhi ; Ren, Bo ; Xia, Shu-Tao

摘要
现实世界中的识别系统经常面临未见过的标签这一挑战。为了识别这些未见过的标签,多标签零样本学习(ML-ZSL)专注于通过预训练的文本标签嵌入(例如,GloVe)来转移知识。然而,这类方法仅利用了语言模型中的单模态知识,而忽略了图像-文本对中固有的丰富语义信息。相反,最近开发的基于开放词汇表(OV)的方法在目标检测中成功利用了这种图像-文本对的信息,并取得了令人印象深刻的表现。受这些基于OV方法成功的启发,我们提出了一种新的开放词汇表框架,称为多模态知识迁移(MKT),用于多标签分类。具体而言,我们的方法基于视觉和语言预训练(VLP)模型,利用图像-文本对的多模态知识。为了促进VLP模型的图像-文本匹配能力的转移,采用了知识蒸馏技术来保证图像和标签嵌入的一致性,并通过提示调优进一步更新标签嵌入。为进一步实现多个对象的识别,开发了一个简单但有效的双流模块来捕捉局部和全局特征。大量的实验结果表明,我们的方法在公开基准数据集上显著优于现有最先进方法。源代码可在https://github.com/sunanhe/MKT 获取。