Command Palette
Search for a command to run...
一文が千の画像を語る:言語ガイドによるCLIPの知識蒸留を用いたドメイン一般化
一文が千の画像を語る:言語ガイドによるCLIPの知識蒸留を用いたドメイン一般化
Zeyi Huang Andy Zhou Zijian Lin Mu Cai Haohan Wang Yong Jae Lee
概要
ドメイン一般化(Domain Generalization)は、複数のドメイン(または分布)からのサンプルを用いてモデルを学習し、その後、新たな未観測ドメインからのサンプルでモデルを評価する問題を扱う。本論文では、大規模な視覚言語モデル(Vision-Language Model)の最近の進展、特にCLIP教師モデルを活用することで、未観測ドメインにも一般化する能力を持つ小さなモデルを学習するための新しいアプローチを提案する。本研究の主な技術的貢献は、学生モデル(student model)が学習する画像表現が、対応する画像のテキスト記述をエンコードして得られた教師モデル(teacher model)のテキスト表現と近接するように制約する新しい種類の正則化手法である。本研究では、学習プロセスにおける学生モデルの正則化の方向性を明確に示すために、絶対距離と相対距離の2種類の損失関数の設計を導入している。提案手法であるRISE(Regularized Invariance with Semantic Embeddings)を複数のベンチマークデータセット上で評価した結果、複数の最先端のドメイン一般化手法を上回る性能を達成した。我々の知る限り、本研究は大規模な視覚言語モデルを用いた知識蒸留(Knowledge Distillation)をドメイン一般化に初めて適用した初の試みである。テキストベースの情報を組み込むことで、RISEは機械学習モデルの一般化能力を著しく向上させた。