17日前

未知ドメインへのCLIPの効率的適応のためのドメインプロンプト学習

Xin Zhang, Shixiang Shane Gu, Yutaka Matsuo, Yusuke Iwasawa
未知ドメインへのCLIPの効率的適応のためのドメインプロンプト学習
要約

ドメイン一般化(Domain Generalization, DG)は、未観測のドメインに対しても汎化可能なモデルを学習することを目的とする困難な転移学習の課題である。近年の基礎モデル(Foundation Models, FMs)は、多くの分布シフト(distribution shift)に対して頑健であり、DGの性能を著しく向上させる可能性を秘めている。本研究では、視覚言語基礎モデルであるCLIPを、画像分類におけるDG問題に適用する汎用的な手法を検討する。標準的なDGベンチマークを用いた実験では、標準的な学習手法(ERM)は、より大きなバックボーンや大規模な学習データセットを用いることで精度を著しく向上させることができたが、基礎モデルの微調整(fine-tuning)は多くの現実世界の状況において実用的ではない。そこで、条件付きプロンプト生成の形でドメイン推論を行う新しいアプローチとして、ドメインプロンプト学習(Domain Prompt Learning, DPL)を提案する。DPLは、軽量なプロンプト生成器(3層MLP)のみを学習することで、顕著な精度向上を達成した。このプロンプト生成器のパラメータ数は、従来のDG研究における分類プロジェクターと同等の規模にとどまる。CLIPとDPLを組み合わせることで、驚異的な性能向上が得られ、PACS、VLCS、OfficeHome、TerraIncognitaといった標準データセットにおいて、ゼロショットCLIPの精度を73.7%から79.3%まで向上させた。本研究の手法の単純さと成功により、基礎モデルがドメイン一般化分野におけるより広範な採用と分析が促進されることを期待している。本研究のコードは、https://github.com/shogi880/DPLCLIP にて公開されている。