17 天前
ObjectNet:一个大规模的偏差控制数据集,用于推动物体识别模型的极限
{Josh Tenenbaum, Christopher Wang, David Mayo, Dan Gutfreund, William Luo, Julian Alverio, Boris Katz, Andrei Barbu}

摘要
我们构建了一个大规模的真实世界测试集——ObjectNet,用于物体识别任务,其中对物体背景、旋转角度和成像视角等变量进行了随机化控制。在大多数科学实验中,都会通过去除数据中的混淆因素(confounds)来设置控制条件,以确保受试者无法通过利用数据中的简单相关性来完成任务。然而,历史上大型机器学习与计算机视觉数据集普遍缺乏此类控制机制。这一缺陷导致模型在新数据集上需要频繁微调,且在基准测试中表现优于真实应用场景中的性能。当在ObjectNet上进行测试时,物体检测模型的性能相比其在其他基准测试中的表现下降了40%至45%,这正是由于对各类偏差的严格控制所致。这些控制使得ObjectNet对微调具有较强的鲁棒性,仅带来微小的性能提升。我们开发了一个高度自动化的平台,通过众包方式实现图像采集与标注,从而能够大规模构建带有控制条件的数据集。ObjectNet的规模与ImageNet测试集相当(共50,000张图像),且出于设计目的,不附带训练集,以鼓励模型实现更强的泛化能力。该数据集在某些方面比ImageNet更简单(物体大多居中且无遮挡),但在另一些方面则更具挑战性(由于严格的控制条件)。尽管本文聚焦于物体识别任务,但借助自动化工具,我们可以在整个机器学习领域大规模构建带有控制条件的数据集,从而以全新方式检验模型能力,为研究者提供宝贵的反馈信息。本研究为可泛化、鲁棒性更强且更接近人类视觉认知的计算机视觉研究开辟了新路径,并推动了构建能够准确预测真实世界性能的数据集的发展。