
摘要
我们开发了一种成本高效的神经符号代理(neurosymbolic agent),用于解决复杂的多轮图像编辑任务,例如“在图像中检测长凳并将其重新着色为粉红色。同时,移除猫以获得更清晰的视野,并将墙壁重新着色为黄色。”该代理结合了大型语言模型(LLMs)快速的高层次子任务规划与每项子任务中缓慢但精确的工具使用及局部A搜索,以找到一种成本高效的工具路径——即一系列调用AI工具的操作序列。为了节省在相似子任务上进行A搜索的成本,我们通过LLMs对先前成功的工具路径进行归纳推理,持续提取/优化常用子程序,并将其作为新工具在未来的任务中自适应地复用。这种可复用的符号子程序显著降低了在类似图像上执行相同类型子任务时的探索成本,从而形成了一种类似于人类的快慢工具路径代理“FaSTA”:首先由LLMs尝试快速的子任务规划和基于规则的子程序选择,预计可以覆盖大多数任务;而只有在遇到新颖且具有挑战性的子任务时,才会触发缓慢的A搜索。通过与近期的图像编辑方法进行比较,我们证明了FaSTA*不仅在计算效率上显著提高,而且在成功率方面仍能与最先进的基线方法保持竞争力。