9 天前

ViperGPT:通过Python执行实现视觉推理以进行推理

Dídac Surís, Sachit Menon, Carl Vondrick
ViperGPT:通过Python执行实现视觉推理以进行推理
摘要

回答视觉问题是一项复杂的任务,需要同时具备视觉理解与推理能力。目前主流的端到端模型虽然在该任务中表现优异,但并未显式区分视觉处理与推理两个环节,从而限制了模型的可解释性与泛化能力。学习模块化程序是一种有前景的替代方案,但由于同时学习程序与模块本身存在困难,实际应用面临挑战。为此,我们提出 ViperGPT,一种利用代码生成模型将视觉-语言模型组合为子程序的框架,以应对任意视觉查询并生成结果。ViperGPT 通过调用预提供的 API 访问可用模块,并通过生成可执行的 Python 代码来组合这些模块。该方法设计简洁,无需额外训练,却在多种复杂的视觉任务上实现了当前最优的性能表现。