16 天前

竹子:基于人机协同的持续构建大规模视觉数据集

Yuanhan Zhang, Qinghong Sun, Yichun Zhou, Zexin He, Zhenfei Yin, Kun Wang, Lu Sheng, Yu Qiao, Jing Shao, Ziwei Liu
竹子:基于人机协同的持续构建大规模视觉数据集
摘要

大规模数据集在计算机视觉领域发挥着至关重要的作用。然而,当前的数据集在标注过程中缺乏对样本的差异化处理,采取的是盲目标注的方式,导致数据收集效率低下且难以扩展。如何实现大规模数据集的主动构建,成为一个亟待解决的关键问题。尽管先进的主动学习算法可能为此提供解决方案,但我们通过实验发现,在现实标注场景中,当分布外(out-of-distribution)数据大量存在时,现有主动学习方法表现乏力。为此,本文提出了一种面向现实数据标注场景的新型主动学习框架。基于该框架,我们构建了一个高质量的视觉数据集——Bamboo,其包含6900万条图像分类标注(覆盖11.9万个类别)以及2800万条目标检测边界框标注(覆盖809个类别)。所有类别均基于整合多个知识库的分层分类体系进行组织。Bamboo的分类标注规模是ImageNet22K的四倍,检测标注规模是Object365的三倍。与ImageNet22K和Object365相比,基于Bamboo预训练的模型在多个下游任务中均展现出更优性能,分类任务提升6.2%,检测任务提升2.1%。我们相信,本文提出的主动学习框架与Bamboo数据集,将成为未来视觉研究的重要基础。