黑盒优化 BlackBox Optimizers
卡内基梅隆大学 (CMU) 在 2024 年提出了一种全新的黑盒优化策略,这一策略通过大语言模型自动调整自然语言提示词,以优化视觉语言模型 (VLMs) 在文生图、视觉识别等多个下游任务中的表现。这种方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,使得即使没有技术背景的用户也能轻松提升模型性能。相关研究成果为「Language Models as Black-Box Optimizers for Vision-Language Models」,该研究已被 CVPR 2024 接收。

具体来讲,研究人员通过自然语言提示来优化 VLMs,这样可以避免获取模型参数、特征嵌入以及输出对数几率等操作。具体是利用基于聊天的大型语言模型 (LLMs),通过自动的「爬山」(hill-climbing) 程序为 VLMs 搜索最佳文本提示,该程序能在无需人工干预的对话过程中,使提示收敛到有效的状态。
在具有挑战性的单样本图像分类设置场景中,所提出的这种简单方法在包括 ImageNet 在内的 11 个数据集上进行测试,其效果平均比白盒连续提示方法 (CoOp) 高出 1.5%,并且优于人工设计的提示以及 LLMs 生成的提示。研究还强调了包含正负提示的对话反馈具有优势,因为 LLMs 能够利用文本反馈中隐含的「梯度」方向来实现更高效的搜索。此外,通过该策略生成的文本提示不仅更具可解释性,而且能以黑盒方式在不同的 VLM 架构之间实现良好迁移。
最后,这一框架还被应用于优化最先进的黑盒 VLM (DALL-E 3),以实现文本到图像生成、提示反转以及个性化等功能。