13日前
ラベルなしにおけるビジョン・ランゲージモデルの適応:包括的なサーベイ
Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

要約
視覚言語モデル(VLMs)は、幅広いタスクにおいて顕著な汎化能力を示している。しかし、タスク固有の適応を施さずに直接特定の下流タスクに適用した場合、その性能はしばしば最適とは言えない。データ効率を維持しつつモデルの有用性を高めるため、近年の研究はラベル付きデータに依存しない無監視適応手法に注目が集まっている。この分野への関心が高まる一方で、無監視VLM適応を対象とした統一的かつタスク指向のレビューは依然として不足している。このギャップを埋めるために、本研究ではこの分野について包括的かつ構造的な概観を提示する。我々は、ラベルなし視覚データの可用性および性質に基づき、既存のアプローチを4つの主要なパラダイムに分類する分類体系を提案する。それらは、データ不要型転移(データなし)、無監視ドメイン転移(豊富なデータ)、エピソード的テスト時適応(バッチデータ)、オンラインテスト時適応(ストリーミングデータ)である。この枠組みの下で、各パラダイムに伴う核心的な手法および適応戦略を分析し、本分野に対する体系的な理解の構築を目指す。さらに、多様な応用分野における代表的なベンチマークをレビューし、未解決の課題および今後の研究における有望な方向性を指摘する。関連文献を随時更新するリポジトリは、https://github.com/tim-learn/Awesome-LabelFree-VLMs で公開されている。