6 个月前

摘要

当前视觉模式识别模型与人类水平的视觉认知之间仍存在显著差距，尤其是在少样本学习（few-shot learning）和新概念的组合推理（compositional reasoning）方面。为此，我们提出了 Bongard-HOI——一个专注于从自然图像中学习人类-物体交互（Human-Object Interactions, HOIs）组合性知识的新视觉推理基准。该基准灵感源自经典博加德问题（Bongard Problems, BPs）所具备的两项理想特性：1）少样本概念学习能力；2）依赖上下文的推理能力。我们精心构建了包含困难负样本（hard negatives）的少样本实例，其中正样本与负样本仅在动作标签上存在差异，因此仅靠识别物体类别无法完成任务，从而对模型提出了更高要求。此外，我们设计了多个测试集，系统性地研究视觉学习模型的泛化能力，通过在少样本实例的训练集与测试集之间调整 HOI 概念的重叠程度（从部分重叠到完全无重叠），全面评估模型在不同情境下的表现。Bongard-HOI 对当前主流视觉识别模型构成了严峻挑战：最先进的 HOI 检测模型在少样本二分类任务上的准确率仅为 62%，而通过 MTurk 平台招募的普通人类测试者准确率却高达 91%。我们希望通过 Bongard-HOI 基准，推动视觉推理领域的进一步研究，特别是在整体感知-推理系统以及更优表征学习方面的进展。

源 PDF