6 个月前

摘要

我们提出Bongard-OpenWorld，这是一个用于评估机器视觉在真实世界中少样本推理能力的新基准。该基准源自经典的Bongard问题（Bongard Problems, BPs）：给定两组图像（正例集与负例集），模型需通过归纳视觉概念，判断查询图像属于哪一组，而这些视觉概念仅由正例集中的图像所唯一刻画。我们的基准继承了原始BPs的少样本概念归纳特性，同时引入了两项全新的挑战维度：（1）开放世界自由形式的概念——Bongard-OpenWorld中的视觉概念是由开放词汇表中术语的独特组合构成，涵盖从物体类别、抽象视觉属性到常识性事实知识等多元语义层面；（2）真实世界图像——与多数现有方法采用的合成图示不同，本基准使用真实场景图像，显著提升了现实复杂性与多样性。在初步探索中，Bongard-OpenWorld已对当前主流的少样本推理算法构成严峻挑战。为进一步探究近期兴起的大语言模型（Large Language Models, LLMs）与视觉-语言模型（Vision-Language Models, VLMs）在该任务上的潜力，我们分别尝试了直接调用VLMs的方法，以及将VLMs与LLMs结合的交互式推理框架。此外，我们还设计了一种神经符号推理方法，旨在融合LLMs与VLMs的能力，并引入逻辑推理机制，以模拟人类解决Bongard问题的认知过程。然而，尽管上述方法均展现出一定潜力，仍未能弥合人类与机器之间的性能差距：最优模型仅达到64%的准确率，而人类参与者平均轻松实现91%的准确率。我们期望Bongard-OpenWorld能够推动学界更深入地理解当前视觉智能系统的局限性，并为未来研究具备更强少样本视觉推理能力的视觉智能体提供重要支撑。

源 PDF