11 天前
基于结构化语言知识的层次化提示学习用于视觉-语言模型
Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao

摘要
提示学习(Prompt Learning)已成为将视觉-语言基础模型适配至下游任务的主流策略。随着大规模语言模型(LLMs)的兴起,近期研究探索了利用与类别相关的描述作为输入,以提升提示的有效性。然而,传统的描述方式难以提供结构化信息,无法有效表征特定类别下实体与属性之间的内在关联。为克服这一局限,并强调对结构化知识的充分利用,本文提出借助LLM为每条描述构建图结构,以建模描述该类别的实体、属性及其相互关系。现有提示调优方法在处理此类结构化知识方面存在明显不足。为此,本文提出一种新颖的方法——层次化提示调优(Hierarchical Prompt Tuning, HPT),实现对结构化知识与传统语言知识的同步建模。具体而言,我们设计了一种关系引导的注意力模块,用于捕捉实体与属性之间的成对关联,支持底层提示学习;同时,通过引入高层及全局提示以建模整体语义,所提出的分层结构实现了跨层级的关联连接,使模型能够更有效地处理复杂且长程的语义关系。大量实验结果表明,所提出的HPT方法在性能上显著优于现有最先进方法,展现出更强的有效性与更优的泛化能力。代码已开源,地址为:https://github.com/Vill-Lab/2024-AAAI-HPT。