6 个月前

摘要

长尾多标签视觉识别（Long-tailed Multi-label Visual Recognition, LTML）任务由于标签共现关系以及数据分布极度不均衡，具有极高的挑战性。本文提出一种统一的LTML框架——基于类别特定嵌入损失的提示调优方法（Prompt Tuning with Class-specific Embedding Loss, LMPT），通过融合文本与图像模态数据，捕捉类别间的语义特征交互，在提升头部类别性能的同时，显著改善尾部类别的识别效果。具体而言，LMPT引入了一种具有类别感知软边距（class-aware soft margin）和重加权机制的嵌入损失函数，利用文本描述（如图像标题）来学习具有类别特异性的上下文表示，从而有助于建立类别之间的语义关联，尤其在头部类别与尾部类别之间构建更有效的语义桥梁。此外，为应对类别不平衡问题，LMPT采用分布平衡损失（distribution-balanced loss）作为分类损失函数，在不损害头部类别性能的前提下，进一步提升尾部类别的识别表现。在VOC-LT和COCO-LT两个基准数据集上进行了大量实验，结果表明，所提方法显著优于现有最先进方法，并在零样本CLIP模型的基础上实现了显著性能提升。相关代码已开源，完整项目地址为：https://github.com/richard-peng-xia/LMPT。

源 PDF