17 天前
Bongard-HOI:面向人-物体交互的少样本视觉推理基准测试
Huaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar

摘要
当前视觉模式识别模型与人类水平的视觉认知之间仍存在显著差距,尤其是在少样本学习(few-shot learning)和新概念的组合推理(compositional reasoning)方面。为此,我们提出了 Bongard-HOI——一个专注于从自然图像中学习人类-物体交互(Human-Object Interactions, HOIs)组合性知识的新视觉推理基准。该基准灵感源自经典博加德问题(Bongard Problems, BPs)所具备的两项理想特性:1)少样本概念学习能力;2)依赖上下文的推理能力。我们精心构建了包含困难负样本(hard negatives)的少样本实例,其中正样本与负样本仅在动作标签上存在差异,因此仅靠识别物体类别无法完成任务,从而对模型提出了更高要求。此外,我们设计了多个测试集,系统性地研究视觉学习模型的泛化能力,通过在少样本实例的训练集与测试集之间调整 HOI 概念的重叠程度(从部分重叠到完全无重叠),全面评估模型在不同情境下的表现。Bongard-HOI 对当前主流视觉识别模型构成了严峻挑战:最先进的 HOI 检测模型在少样本二分类任务上的准确率仅为 62%,而通过 MTurk 平台招募的普通人类测试者准确率却高达 91%。我们希望通过 Bongard-HOI 基准,推动视觉推理领域的进一步研究,特别是在整体感知-推理系统以及更优表征学习方面的进展。