視覚言語モデルの内在的知識と、強弱ガイドにより実現される教師なしドメイン適応の統合

教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)は、データのラベル付け作業を回避するために、ラベル付きのソースデータセットを活用し、その知識を類似しながらも異なるターゲットデータセットに転移することを目的としている。一方、近年の視覚言語モデル(Vision-Language Models)は、顕著なゼロショット予測能力を示している。本研究では、UDAによって得られた知識と、視覚言語モデルに内在する知識を統合するアプローチを提案する。我々は、ゼロショット予測を用いてソースデータセットとターゲットデータセットの分布を統合する「強弱ガイドライン学習(strong-weak guidance learning)」スキームを導入する。強ガイドラインでは、ターゲットデータセットの予測確信度が最も高いサンプルを用いてソースデータセットを拡張する。一方、弱ガイドラインとして、知識蒸留損失(knowledge distillation loss)を用いる。強ガイドラインはハードラベル(hard labels)を用いるが、ターゲットデータセットの最も信頼性の高い予測にのみ適用される。それに対して、弱ガイドラインは全データセットに適用されるが、ソフトラベル(soft labels)を用いる。弱ガイドラインは、(シフトされた)ゼロショット予測を用いた知識蒸留損失として実装される。本研究では、提案手法が視覚言語モデルにおけるプロンプト適応(prompt adaptation)技術と相補的に機能し、その効果を高められることを示す。OfficeHome、VisDA、DomainNetの3つのベンチマークにおいて実験およびアブレーションスタディを実施した結果、最先端の手法を上回る性能を達成した。さらに、アブレーションスタディにより、本手法の異なる構成要素がそれぞれどのように貢献しているかを明確に示した。