9 天前

LMPT:面向长尾多标签视觉识别的类别特定嵌入损失提示调优

Peng Xia, Di Xu, Ming Hu, Lie Ju, Zongyuan Ge
LMPT:面向长尾多标签视觉识别的类别特定嵌入损失提示调优
摘要

长尾多标签视觉识别(Long-tailed Multi-label Visual Recognition, LTML)任务由于标签共现关系以及数据分布极度不均衡,具有极高的挑战性。本文提出一种统一的LTML框架——基于类别特定嵌入损失的提示调优方法(Prompt Tuning with Class-specific Embedding Loss, LMPT),通过融合文本与图像模态数据,捕捉类别间的语义特征交互,在提升头部类别性能的同时,显著改善尾部类别的识别效果。具体而言,LMPT引入了一种具有类别感知软边距(class-aware soft margin)和重加权机制的嵌入损失函数,利用文本描述(如图像标题)来学习具有类别特异性的上下文表示,从而有助于建立类别之间的语义关联,尤其在头部类别与尾部类别之间构建更有效的语义桥梁。此外,为应对类别不平衡问题,LMPT采用分布平衡损失(distribution-balanced loss)作为分类损失函数,在不损害头部类别性能的前提下,进一步提升尾部类别的识别表现。在VOC-LT和COCO-LT两个基准数据集上进行了大量实验,结果表明,所提方法显著优于现有最先进方法,并在零样本CLIP模型的基础上实现了显著性能提升。相关代码已开源,完整项目地址为:https://github.com/richard-peng-xia/LMPT。