18日前

コンテキストに配慮したロバストなファインチューニング

Xiaofeng Mao, Yuefeng Chen, Xiaojun Jia, Rong Zhang, Hui Xue, Zhao Li
コンテキストに配慮したロバストなファインチューニング
要約

コントラスト型言語-画像事前学習(CLIP)モデルは、画像とプロンプト文「[CLASS]の[CONTEXT]」の類似性を用いて、「[CLASS]に属する画像」をゼロショットで分類する能力を有している。[CONTEXT]に含まれる豊富なテキスト的ヒントに基づき、CLIPモデルは背景、スタイル、視点など異なる文脈を認識し、広範な分布シフトに対して前例のない堅牢性を示す。しかし、最近の研究では、CLIPモデルのさらなるファインチューニングが精度を向上させる一方で、下流タスクにおける堅牢性を損なうことが明らかになっている。本研究では、ファインチューニングが事前学習済みCLIP特徴の文脈認識能力を損なうことを実証的に検証する。この問題を解決するために、文脈認識型堅牢なファインチューニング(CAR-FT)を提案する。CAR-FTは、ファインチューニング中にモデルが文脈情報を捉えるように正則化する。具体的には、ゼロショットプロンプトの重みを用いて、画像に含まれる文脈分布を推定する。その後、オリジナルCLIPモデルとファインチューニング後のCLIPモデルによって誘導される文脈分布間のカルバック・ライブラー距離(KLD)を最小化することで、CLIPの文脈認識能力を下流タスクに継承する。その結果、分布内(ID)および分布外(OOD)の両方の精度が向上する。実験結果から、CAR-FTはImageNetの5つのOODテストデータセットにおいて優れた堅牢性を達成し、同時に9つの下流タスクで精度向上をもたらすことが示された。さらに、従来のドメイン一般化(DG)手法を上回り、DomainBedベンチマークにおいて平均78.5%の精度を達成し、新たな最先端性能を樹立した。