HyperAIHyperAI

Command Palette

Search for a command to run...

一文が千の画像を語る:言語ガイドによるCLIPの知識蒸留を用いたドメイン一般化

Zeyi Huang Andy Zhou Zijian Lin Mu Cai Haohan Wang Yong Jae Lee

概要

ドメイン一般化(Domain Generalization)は、複数のドメイン(または分布)からのサンプルを用いてモデルを学習し、その後、新たな未観測ドメインからのサンプルでモデルを評価する問題を扱う。本論文では、大規模な視覚言語モデル(Vision-Language Model)の最近の進展、特にCLIP教師モデルを活用することで、未観測ドメインにも一般化する能力を持つ小さなモデルを学習するための新しいアプローチを提案する。本研究の主な技術的貢献は、学生モデル(student model)が学習する画像表現が、対応する画像のテキスト記述をエンコードして得られた教師モデル(teacher model)のテキスト表現と近接するように制約する新しい種類の正則化手法である。本研究では、学習プロセスにおける学生モデルの正則化の方向性を明確に示すために、絶対距離と相対距離の2種類の損失関数の設計を導入している。提案手法であるRISE(Regularized Invariance with Semantic Embeddings)を複数のベンチマークデータセット上で評価した結果、複数の最先端のドメイン一般化手法を上回る性能を達成した。我々の知る限り、本研究は大規模な視覚言語モデルを用いた知識蒸留(Knowledge Distillation)をドメイン一般化に初めて適用した初の試みである。テキストベースの情報を組み込むことで、RISEは機械学習モデルの一般化能力を著しく向上させた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています