HPT++:マルチスケール知識生成と構造モデリングの向上を活用した階層的プロンプトによる視覚言語モデル

プロンプト学習は、CLIPをはじめとする視覚言語基盤モデル(VLMs)を下流タスクに適応させるための普及している戦略となっている。近年、大規模言語モデル(LLMs)の登場に伴い、カテゴリ関連の記述を活用することでプロンプトの効果を向上させる可能性が検討されている。しかし、従来の記述には、特定のカテゴリに関連するエンティティや属性間の関係性を明示的に表現するための構造化情報が不足している。既存のプロンプトチューニング手法は構造化知識の管理にほとんど注意を払っていないため、本研究ではLLMを活用して各記述に対してグラフ構造を構築し、構造化知識を優先的に活用することを提唱する。その結果、構造化知識と従来の言語的知識を同時にモデル化できる新しいアプローチ、階層的プロンプトチューニング(Hierarchical Prompt Tuning, HPT)を提案する。具体的には、低レベルのプロンプト学習においてエンティティと属性間の対間関係を捉えるため、関係性をガイドするアテンションモジュールを導入する。さらに、高レベルおよびグローバルレベルのプロンプトを用いて全体の意味をモデル化することで、階層構造が階層間の相互接続を形成し、より複雑で長期的な関係を扱える能力をモデルに与える。最後に、多粒度の知識生成を強化し、関係性駆動型アテンションの再重み付けモジュールを再設計し、階層的テキストエンコーダに対して一貫性制約を導入することで、HPTの性能をさらに向上させるHPT++を提案する。実験は、ベースから新しいカテゴリへの一般化、データセット間評価、ドメイン一般化など、広範な評価設定において実施された。広範な実験結果とアブレーションスタディにより、本手法の有効性が実証され、従来の最先端(SOTA)手法を一貫して上回ることを示した。