BIRDS 525 SPECIES 525 种鸟类图像数据集

日期

5 个月前

大小

1.96 GB

机构

Kaggle

发布地址

www.kaggle.com

特色图像

数据集概述

该数据集共包含 525 种鸟类,84,635 张训练图像,2,625 张测试图像,以及 2,625 张验证图像。

数据清洗与质量保证

  • 去重与去噪:使用分析工具清理数据集,移除重复或近乎重复的图像,以及有缺陷的低信息图像。
  • 数据集隔离:确保训练、测试和验证数据集之间没有信息泄漏。

数据集特点

  • 图像质量:图像原始且未经增强,每张图像中只有一只鸟,通常占据至少 50% 的像素。
  • 预期性能:中等复杂度的模型预计可达到约 90% 的训练和测试准确率。

技术规格

  • 图像尺寸:所有图像为 224 X 224 X 3 的彩色 JPG 格式。
  • 数据集结构:包括训练集、测试集和验证集,每个集合包含 525 个子目录,每个子目录对应一种鸟类。

数据集使用建议

  • 数据生成器:推荐使用 Keras ImageDataGenerator.flow_from_directory 创建数据生成器。
  • 辅助文件:数据集包括一个 bird.csv 文件,包含图像路径、标签、科学名称、数据集类型和类索引值。

数据收集与处理

  • 图像来源:通过互联网搜索收集,下载后检查并删除重复或近似重复的图像。
  • 图像处理:裁剪并调整图像尺寸,确保鸟类图像占据至少 50% 像素。

数据集局限性

  • 图像大小建议:建议使用 150 X 150 X 3 的图像大小以减少训练时间。
  • 文件编号:所有文件按物种编号,训练图像使用零填充以保持顺序。
  • 数据集不平衡:训练集中每个物种的图像数量不同,但至少有 130 张图像。
  • 性别偏差:约 80% 的图像为雄性,20% 为雌性,可能导致分类器在雌性图像上表现不佳。
BIRDS-525-SPECIES.torrent

做种 1

下载中 2

已完成 55

总下载 159

  • BIRDS-525-SPECIES/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • birds.zip
          1.96 GB