3ヶ月前
SgVA-CLIP:少数ショット画像分類のための意味誘導型視覚適応による視覚言語モデル
Fang Peng, Xiaoshan Yang, Linhui Xiao, Yaowei Wang, Changsheng Xu

要約
少サンプル学習においては顕著な進展が見られつつあるが、現存する多数の少サンプル画像分類手法は、ベースクラスの大量サンプルを用いた教師あり事前学習を必要としており、実世界における応用において一般化能力に制限が生じている。近年、大規模な視覚言語事前学習モデル(VLPs)は、Web上で容易に入手可能なテキストを活用して、転移可能な視覚表現学習の新たなアプローチを提供できる点から、少サンプル学習において注目を集めている。しかし、VLPsは、言語表現では難しく、画像間の微細な違いを識別する上で重要である詳細な視覚情報を無視する傾向がある。この問題に対処するため、本研究では、暗黙的な知識蒸留、視覚特化型の対照学習損失、およびマルチモーダル対照学習損失を統合的に活用することで、視覚言語事前学習モデルを効果的に拡張し、判別力の高い適応視覚特徴を生成する新しいフレームワーク、Semantik-guided Visual Adapting(SgVA)を提案する。暗黙的な知識蒸留は、微細なマルチモーダル知識を視覚アダプタの更新を導くために設計されている。13のデータセットにおける最先端の実験結果から、適応視覚特徴がマルチモーダル特徴と良好に補完し、少サンプル画像分類性能を向上させることを示した。