11 天前

HPT++:基于多粒度知识生成与结构建模优化的分层提示视觉-语言模型

Yubin Wang, Xinyang Jiang, De Cheng, Wenli Sun, Dongsheng Li, Cairong Zhao
HPT++:基于多粒度知识生成与结构建模优化的分层提示视觉-语言模型
摘要

提示学习(Prompt Learning)已成为适配视觉-语言基础模型(VLMs,如CLIP)至下游任务的主流策略。随着大规模语言模型(LLMs)的兴起,近期研究探索了利用与类别相关的描述来提升提示的有效性。然而,传统描述缺乏表达关键元素(如实体或属性)之间关联关系所必需的显式结构化信息。由于现有提示调优方法对结构化知识的管理关注不足,本文提出借助LLM为每条描述构建图结构,以优先整合此类结构化知识。为此,我们提出一种新型方法——分层提示调优(Hierarchical Prompt Tuning, HPT),实现对结构化知识与传统语言知识的并行建模。具体而言,我们引入一种关系引导注意力模块,用于捕捉实体与属性之间的成对关联,支持低层级提示学习。同时,通过融合高层级与全局级提示以建模整体语义,所提出的分层架构实现了跨层级的关联连接,使模型能够更好地处理更复杂、更长期的语义关系。此外,通过增强多粒度知识生成能力、重构关系驱动的注意力重加权模块,并在分层文本编码器中引入一致性约束,我们进一步提出了HPT++,显著提升了HPT的性能。我们在多种评估设置下进行了实验,涵盖基础类别到新类别的泛化能力、跨数据集评估以及领域泛化能力。大量实验结果与消融研究充分验证了所提方法的有效性,其性能持续优于现有最先进(SOTA)方法。