2 个月前

丹麦真菌2020——不仅仅是另一个图像识别数据集

Picek, Lukáš ; Šulc, Milan ; Matas, Jiří ; Heilmann-Clausen, Jacob ; Jeppesen, Thomas S. ; Læssøe, Thomas ; Frøslev, Tobias
丹麦真菌2020——不仅仅是另一个图像识别数据集
摘要

我们介绍了一个新的细粒度数据集和基准测试,即丹麦真菌2020(DF20)。该数据集基于提交给丹麦真菌图谱的观察记录构建,其独特之处在于分类学上准确的类别标签、错误数量较少、高度不平衡的长尾类别分布、丰富的观察元数据以及明确定义的类别层次结构。DF20与ImageNet没有重叠,允许从公开可用的ImageNet检查点微调模型时进行无偏比较。所提出的评估协议能够测试利用元数据(例如精确地理位置、生境和基质)改进分类的能力,有助于分类器校准测试,并最终研究设备设置对分类性能的影响。实验使用了卷积神经网络(CNN)和最近的视觉变换器(ViT),结果显示DF20提出了一个具有挑战性的任务。有趣的是,ViT在准确率和宏F1分数方面分别达到了80.45%和0.743,分别将CNN的错误率降低了9%和12%。一种简单的将元数据纳入决策过程的方法使分类准确率提高了超过2.95个百分点,错误率降低了15%。所有方法和实验的源代码可在https://sites.google.com/view/danish-fungi-dataset获取。