6 个月前

摘要

细粒度视觉分类（Fine-grained Visual Classification, FGVC）旨在对某一大类别的内部细分子类进行精确区分，由于类别间差异细微而类内变化较大，该任务面临显著挑战。然而，现有方法主要聚焦于单一模态的视觉特征建模。近年来，预训练的视觉-语言模型在多种高层视觉任务中展现出卓越性能，但其在FGVC任务中的适用性仍不明确。本文旨在充分挖掘跨模态描述的潜力，以应对FGVC挑战，提出一种基于对比语言-图像预训练模型（CLIP）的新型多模态提示方法，命名为MP-FGVC。该方法包含两个核心组件：多模态提示机制与多模态适配机制。前者引入子类别特定视觉提示（Subcategory-specific Vision Prompt, SsVP）与差异感知文本提示（Discrepancy-aware Text Prompt, DaTP），分别从视觉与语言两个维度显式捕捉子类别间的细微差异；后者通过一个视觉-语言融合模块（Vision-Language Fusion Module, VLFM），将视觉与文本提示映射至统一语义空间，实现跨模态协同推理，进一步提升分类性能。此外，为充分挖掘预训练CLIP模型的潜力并加速模型在FGVC任务上的高效适配，我们设计了一种两阶段优化策略。在四个主流FGVC数据集上的大量实验结果表明，所提出的MP-FGVC方法在细粒度分类任务中具有显著有效性与优越性能。

源 PDF