16日前
視覚言語モデルにおける構造的言語知識を用いた階層的プロンプト学習
Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao

要約
プロンプト学習は、視覚言語基盤モデルを下流タスクに適応させるための広く用いられる戦略となっている。近年、大規模言語モデル(LLM)の登場に伴い、カテゴリに関連する記述を入力として用いることでプロンプトの効果を向上させる研究が進んでいる。しかし、従来の記述手法は、特定のカテゴリに関連するエンティティや属性間の相互関係を効果的に表現する構造化された情報を提供できていない。この課題を解決し、構造化知識の活用を重視するため、本論文では、各記述に対してLLMを活用してエンティティ・属性およびそれらの相関関係をモデル化するグラフを構築することを提唱する。既存のプロンプトチューニング手法は、このような構造化知識を適切に扱う能力に欠けている。そこで、構造化知識と従来の言語的知識の両方を同時かつ効果的にモデル化できる新しいアプローチ、階層的プロンプトチューニング(Hierarchical Prompt Tuning, HPT)を提案する。具体的には、低レベルのプロンプト学習においてエンティティと属性間の対間関係を捉えるため、関係性をガイドするアテンションモジュールを導入する。さらに、高レベルおよびグローバルレベルのプロンプトを用いて全体的な意味をモデル化することで、階層構造が異なるレベル間の相互接続を形成し、より複雑かつ長期的な関係を処理できる能力をモデルに与える。広範な実験により、HPTが既存の最先端(SOTA)手法と比較して優れた効果を発揮し、汎化性能が大幅に優れていることが確認された。本研究のコードは、https://github.com/Vill-Lab/2024-AAAI-HPT にて公開されている。