13 天前

无标签视觉-语言模型适应:一项全面综述

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
无标签视觉-语言模型适应:一项全面综述
摘要

视觉-语言模型(Vision-Language Models, VLMs)在众多任务中展现出卓越的泛化能力。然而,在未经过特定任务适配的情况下,直接将其应用于具体下游场景时,其性能往往难以达到最优。为在保持数据高效性的同时提升模型实用性,近年来的研究日益聚焦于无需标注数据的无监督适配方法。尽管该领域受到越来越多关注,但目前仍缺乏一个统一且面向任务的无监督VLM适配综述。为弥补这一空白,本文提出对这一领域进行全面而系统的梳理。我们基于未标注视觉数据的可用性与性质,构建了一个分类体系,将现有方法归纳为四种核心范式:无数据迁移(Data-Free Transfer,无数据)、无监督域迁移(Unsupervised Domain Transfer,海量数据)、事件式测试时适配(Episodic Test-Time Adaptation,批量数据)以及在线测试时适配(Online Test-Time Adaptation,流式数据)。在该框架下,我们深入分析了各类范式所对应的核心方法与适配策略,旨在建立对该领域的系统性认知。此外,本文还回顾了涵盖多种应用场景的代表性基准测试,并指出了当前存在的开放性挑战与未来研究的潜在方向。相关文献的持续更新资源库可访问:https://github.com/tim-learn/Awesome-LabelFree-VLMs。