
摘要
将预训练的视觉-语言模型(VLMs),如CLIP,用于开放世界泛化,因其实际应用价值而日益受到关注。然而,仅依赖复杂算法设计来优化单一模型,即使该模型本身表现优异(如CLIP-ViT-B/16),其性能提升也面临瓶颈。本文首次探索了利用性能较弱的多个VLM协同增强一个强健单模型泛化能力的潜力。积极的研究发现促使我们从全新视角——预训练VLM的集成(ensemble)——来应对泛化难题。为此,本文提出了三种定制化的集成策略,每种策略针对特定应用场景进行优化:首先,提出零样本集成(zero-shot ensemble),在仅使用预训练VLM的情况下,自动根据各模型的置信度调整其输出logits;其次,在存在少量额外样本的场景下,提出无需训练且无需调参的集成方法(training-free and tuning ensemble),以适应不同计算资源条件下的灵活性需求。所提出的集成策略在零样本泛化、基类到新类泛化以及跨数据集泛化任务上均取得了当前最优性能,显著超越现有方法。值得注意的是,本工作标志着通过集成策略提升VLM泛化能力的初步探索。相关代码已开源,地址为:https://github.com/zhiheLu/Ensemble_VLM.git。