16日前

PromptKD:視覚言語モデル向けの教師なしプロンプト蒸留

Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang
PromptKD:視覚言語モデル向けの教師なしプロンプト蒸留
要約

プロンプト学習は、CLIPをはじめとする視覚言語モデル(VLM)が特定のドメインにおける下流タスクに応用される際の性能向上に有効な手法として注目されている。これまでの研究は、さまざまなプロンプトの学習形式の設計に主眼を置いてきたが、大規模な教師モデルからの学習を効果的に促進するというプロンプトの潜在的役割には十分に注目されていない。本論文では、ラベルなしドメイン画像を用いてプロンプト駆動型の模倣によって、大規模な教師モデルの知識を軽量なターゲットモデルに転送することを目的とした、非教師付きドメインプロンプト蒸留フレームワークを提案する。具体的には、本フレームワークは2段階のプロセスで構成される。最初の段階では、ドメイン固有(少数ショット)のラベルを用いて大規模なCLIP教師モデルを事前学習する。事前学習後、CLIPの特徴的なモダリティ分離構造を活用し、教師モデルのテキストエンコーダを用いて一度だけテキスト特徴量(クラスベクトル)を事前に計算・保存する。その後の段階では、この保存されたクラスベクトルを教師モデルと学生モデルの画像エンコーダ間で共有し、予測ロジットの計算に用いる。さらに、教師モデルと学生モデルのロジット間をKLダイバージェンスにより一致させることで、学習可能なプロンプトを通じて学生画像エンコーダが教師モデルと同様の確率分布を生成するよう促す。本研究で提案するプロンプト蒸留プロセスはラベル付きデータに依存しないため、ドメイン内に存在する膨大なラベルなし画像を効果的に活用可能となる。最終的に、十分に学習された学生画像エンコーダと事前に保存されたテキスト特徴量(クラスベクトル)を推論に利用する。筆者らの知る限り、本研究は(1)CLIPに対する非教師付きドメイン固有のプロンプト駆動型知識蒸留を初めて実現し、(2)教師モデルと学生モデル間で共有可能なクラスベクトルとしてのテキスト特徴量の実用的な事前保存メカニズムを確立した。11のデータセットにおける広範な実験により、本手法の有効性が実証された。

PromptKD:視覚言語モデル向けの教師なしプロンプト蒸留 | 最新論文 | HyperAI超神経