HyperAI超神经

黑盒优化 BlackBox Optimizers

卡内基梅隆大学 (CMU) 在 2024 年提出了一种全新的黑盒优化策略,这一策略通过大语言模型自动调整自然语言提示词,以优化视觉语言模型 (VLMs) 在文生图、视觉识别等多个下游任务中的表现。这种方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,使得即使没有技术背景的用户也能轻松提升模型性能。相关研究成果为「Language Models as Black-Box Optimizers for Vision-Language Models」,该研究已被 CVPR 2024 接收。

图注:使用基于聊天的大型语言模型 (LLMs) 对视觉 – 语言模型 (VLMs) 进行提示。就如同人工提示工程师迭代式地测试和优化提示一样,研究人员利用 ChatGPT 来持续优化视觉 – 语言模型 (VLMs) 的提示。该研究的迭代方法会在少样本数据集(以蓝色突出显示)上评估 ChatGPT 生成的提示的性能,并通过简单对话向 ChatGPT 提供反馈(以紫色标记),如示例图所示。这种简单直接的方法在使用 CLIP 对 11 个数据集进行单样本图像分类时取得了最先进的成果,且是以黑盒方式操作的,无需访问模型权重、特征嵌入或输出对数几率。研究表明,同时提供正向(绿色)和负向(红色)提示可提高效率。值得注意的是,在这种极低样本的场景下,研究方法在性能上优于诸如基于梯度的连续提示 (CoOp) 等白盒方法以及人工设计的提示。该图仅展示了使用 ChatGPT 网络用户界面进行的一次典型对话。该研究的代码实现是通过 ChatGPT API 按照这种模式进行的。

具体来讲,研究人员通过自然语言提示来优化 VLMs,这样可以避免获取模型参数、特征嵌入以及输出对数几率等操作。具体是利用基于聊天的大型语言模型 (LLMs),通过自动的「爬山」(hill-climbing) 程序为 VLMs 搜索最佳文本提示,该程序能在无需人工干预的对话过程中,使提示收敛到有效的状态。

在具有挑战性的单样本图像分类设置场景中,所提出的这种简单方法在包括 ImageNet 在内的 11 个数据集上进行测试,其效果平均比白盒连续提示方法 (CoOp) 高出 1.5%,并且优于人工设计的提示以及 LLMs 生成的提示。研究还强调了包含正负提示的对话反馈具有优势,因为 LLMs 能够利用文本反馈中隐含的「梯度」方向来实现更高效的搜索。此外,通过该策略生成的文本提示不仅更具可解释性,而且能以黑盒方式在不同的 VLM 架构之间实现良好迁移。

最后,这一框架还被应用于优化最先进的黑盒 VLM (DALL-E 3),以实现文本到图像生成、提示反转以及个性化等功能。