2 个月前
iNaturalist 物种分类和检测数据集
Grant Van Horn; Oisin Mac Aodha; Yang Song; Yin Cui; Chen Sun; Alex Shepard; Hartwig Adam; Pietro Perona; Serge Belongie

摘要
现有的计算机视觉图像分类数据集往往在对象类别上具有均匀的图像分布。相比之下,自然界中的物种分布极不均衡,因为某些物种数量更多且更容易拍摄。为了鼓励在更具挑战性的现实条件下取得进一步进展,我们介绍了iNaturalist物种分类和检测数据集,该数据集包含来自超过5,000种不同植物和动物的859,000张图像。该数据集的特点是包含视觉上相似的物种,并在世界各地的各种环境中拍摄。图像由不同类型的相机采集,质量参差不齐,存在显著的类别不平衡,并经过多位公民科学家的验证。我们讨论了数据集的收集过程,并展示了使用最先进的计算机视觉分类和检测模型进行的广泛基线实验。结果显示,当前非集成方法仅达到67%的单标签分类准确率,这表明该数据集的难度较高。特别是,对于训练样本较少的类别,我们观察到较差的结果,这表明低样本学习需要更多的关注。