摘要

解决复杂的视觉任务，如“右侧的乐器是谁发明的？”需要综合运用多种技能：理解空间关系、识别乐器以及检索先前的知识。近期的研究表明，通过将大型语言模型（LLM）分解为可执行程序来调用专门的视觉模型，这种方法显示出一定的潜力。然而，生成的程序容易出错：它们可能会遗漏必要的步骤、包含多余的步骤，并且在专门模型输出错误结果时无法恢复。此外，这些程序需要加载多个模型，导致较高的延迟和计算成本。我们提出了一种名为视觉程序蒸馏（Visual Program Distillation, VPD）的指令微调框架，该框架能够生成一个能够在单次前向传递中解决复杂视觉任务的视觉-语言模型（VLM）。VPD 通过使用 LLM 采样多个候选程序，并执行和验证这些程序以确定正确的程序，从而提取 LLM 的推理能力。然后将每个正确的程序转换为推理步骤的语言描述，并将其蒸馏到 VLM 中。大量实验表明，VPD 提高了 VLM 在计数、理解空间关系和组合推理方面的能力。我们训练的 PaLI-X 模型在包括 MMBench、OK-VQA、A-OKVQA、TallyQA、POPE 和 Hateful Memes 等复杂视觉任务上超越了所有先前的 VLM 模型，达到了最先进的性能水平。人类注释者的评估也证实了 VPD 改进了模型响应的事实性和一致性。最后，在内容审核方面的实验进一步证明了 VPD 在数据有限的实际应用中的有效性。

源 PDF