18 天前

深入探究多模态提示在细粒度视觉分类中的应用

Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
深入探究多模态提示在细粒度视觉分类中的应用
摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)旨在对某一大类别的内部细分子类进行精确区分,由于类别间差异细微而类内变化较大,该任务面临显著挑战。然而,现有方法主要聚焦于单一模态的视觉特征建模。近年来,预训练的视觉-语言模型在多种高层视觉任务中展现出卓越性能,但其在FGVC任务中的适用性仍不明确。本文旨在充分挖掘跨模态描述的潜力,以应对FGVC挑战,提出一种基于对比语言-图像预训练模型(CLIP)的新型多模态提示方法,命名为MP-FGVC。该方法包含两个核心组件:多模态提示机制与多模态适配机制。前者引入子类别特定视觉提示(Subcategory-specific Vision Prompt, SsVP)与差异感知文本提示(Discrepancy-aware Text Prompt, DaTP),分别从视觉与语言两个维度显式捕捉子类别间的细微差异;后者通过一个视觉-语言融合模块(Vision-Language Fusion Module, VLFM),将视觉与文本提示映射至统一语义空间,实现跨模态协同推理,进一步提升分类性能。此外,为充分挖掘预训练CLIP模型的潜力并加速模型在FGVC任务上的高效适配,我们设计了一种两阶段优化策略。在四个主流FGVC数据集上的大量实验结果表明,所提出的MP-FGVC方法在细粒度分类任务中具有显著有效性与优越性能。