6 个月前

计算机视觉

Yuanhan Zhang Qinghong Sun Yichun Zhou Zexin He Zhenfei Yin Kun Wang Lu Sheng Yu Qiao Jing Shao Ziwei Liu

摘要

大规模数据集在计算机视觉领域发挥着至关重要的作用。然而，当前的数据集在标注过程中缺乏对样本的差异化处理，采取的是盲目标注的方式，导致数据收集效率低下且难以扩展。如何实现大规模数据集的主动构建，成为一个亟待解决的关键问题。尽管先进的主动学习算法可能为此提供解决方案，但我们通过实验发现，在现实标注场景中，当分布外（out-of-distribution）数据大量存在时，现有主动学习方法表现乏力。为此，本文提出了一种面向现实数据标注场景的新型主动学习框架。基于该框架，我们构建了一个高质量的视觉数据集——Bamboo，其包含6900万条图像分类标注（覆盖11.9万个类别）以及2800万条目标检测边界框标注（覆盖809个类别）。所有类别均基于整合多个知识库的分层分类体系进行组织。Bamboo的分类标注规模是ImageNet22K的四倍，检测标注规模是Object365的三倍。与ImageNet22K和Object365相比，基于Bamboo预训练的模型在多个下游任务中均展现出更优性能，分类任务提升6.2%，检测任务提升2.1%。我们相信，本文提出的主动学习框架与Bamboo数据集，将成为未来视觉研究的重要基础。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yuanhan Zhang Qinghong Sun Yichun Zhou Zexin He Zhenfei Yin Kun Wang Lu Sheng Yu Qiao Jing Shao Ziwei Liu

摘要

大规模数据集在计算机视觉领域发挥着至关重要的作用。然而，当前的数据集在标注过程中缺乏对样本的差异化处理，采取的是盲目标注的方式，导致数据收集效率低下且难以扩展。如何实现大规模数据集的主动构建，成为一个亟待解决的关键问题。尽管先进的主动学习算法可能为此提供解决方案，但我们通过实验发现，在现实标注场景中，当分布外（out-of-distribution）数据大量存在时，现有主动学习方法表现乏力。为此，本文提出了一种面向现实数据标注场景的新型主动学习框架。基于该框架，我们构建了一个高质量的视觉数据集——Bamboo，其包含6900万条图像分类标注（覆盖11.9万个类别）以及2800万条目标检测边界框标注（覆盖809个类别）。所有类别均基于整合多个知识库的分层分类体系进行组织。Bamboo的分类标注规模是ImageNet22K的四倍，检测标注规模是Object365的三倍。与ImageNet22K和Object365相比，基于Bamboo预训练的模型在多个下游任务中均展现出更优性能，分类任务提升6.2%，检测任务提升2.1%。我们相信，本文提出的主动学习框架与Bamboo数据集，将成为未来视觉研究的重要基础。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供