視覚言語モデルを活用した画像分類におけるドメイン一般化の向上

視覚言語モデル(VLM)であるCLIPなどは、多数の画像-テキストペアを用いて学習されるため、複数のデータ分布にわたって優れた汎化性能を発揮する。しかし、いくつかのケースでは、その高コストな学習およびデータ収集・整備コストが最終的な応用において正当化されない。この課題を解決するために、ベンダー-クライアントモデルが提案される。このモデルでは、ベンダーが大規模なVLMを事前に学習し、クライアントに対してはブラックボックス環境下でクエリごとの課金制で入出力のみのアクセスを提供する。クライアントは、限られたタスク固有のデータを用いて、VLMを学生モデルに知識蒸留(distillation)することで推論コストを最小化し、その後その学生モデルを下流のアプリケーションに導入する。しかし、単純な知識蒸留では学生モデルのインドメイン(ID)精度は著しく向上するものの、限られたラベル付き画像データを用いてVLM教師モデルが持つ優れたオフドメイン(OOD)汎化能力を十分に伝達できない。これを改善するために、本研究では「視覚言語→視覚:アライメント、蒸留、予測(VL2V-ADiP)」という新アプローチを提案する。この手法は、まず教師モデルの視覚・言語モダリティを、事前に学習された学生モデルの視覚モダリティとアライメント(整合)させ、その後、整合済みのVLM表現を学生モデルに蒸留する。これにより、学生モデルの事前学習済み特徴を最大限に保持しつつ、VLMの画像エンコーダが持つ豊かな表現力およびテキスト埋め込みの優れた汎化能力も効果的に統合する。提案手法は、ブラックボックス教師設定だけでなく、VLMの重みにアクセス可能なホワイトボックス設定においても、標準的なドメイン汎化ベンチマークで最先端の性能を達成した。