2ヶ月前

プロンプトチューニングにおけるマルチラベル画像認識のためのテキストの画像化

Guo, Zixian ; Dong, Bowen ; Ji, Zhilong ; Bai, Jinfeng ; Guo, Yiwen ; Zuo, Wangmeng
プロンプトチューニングにおけるマルチラベル画像認識のためのテキストの画像化
要約

プロンプトチューニングは、大規模な視覚言語事前学習モデル(例:CLIP)をデータ制約やラベル制約のある設定で様々な下流タスクに適応させる効率的な方法として利用されています。しかし、既存の手法では、プロンプトの学習には視覚データ(例:画像)が必須となっています。本研究では、画像とテキストの二つのモダリティを対応させる画像-テキスト対比学習の有効性(CLIPの訓練において)が、テキストを画像として扱ってプロンプトチューニングを行うことの実現可能性を高めることを主張し、TaI プロンプティングを導入します。視覚データとは異なり、テキスト記述は収集が容易であり、クラスラベルも直接導出できます。特に、我々は野生の文章を使用して多ラベル画像認識における画像の代替としてプロンプトチューニングを行うことを提案しています。さらに、TaI を用いて粗粒度と細粒度の両方の埋め込みを抽出するための二重粒度プロンプトチューニング(TaI-DPT)を提示します。これにより多ラベル認識性能が向上します。実験結果は、提案した TaI-DPT が複数のベンチマーク(MS-COCO, VOC2007, NUS-WIDE など)でゼロショット CLIP を大幅に上回り、また既存の画像からのプロンプティング手法と組み合わせることで認識性能をさらに向上させられることを示しています。コードは https://github.com/guozix/TaI-DPT で公開されています。