数据集概述
该数据集共包含 525 种鸟类,84,635 张训练图像,2,625 张测试图像,以及 2,625 张验证图像。
数据清洗与质量保证
- 去重与去噪:使用分析工具清理数据集,移除重复或近乎重复的图像,以及有缺陷的低信息图像。
- 数据集隔离:确保训练、测试和验证数据集之间没有信息泄漏。
数据集特点
- 图像质量:图像原始且未经增强,每张图像中只有一只鸟,通常占据至少 50% 的像素。
- 预期性能:中等复杂度的模型预计可达到约 90% 的训练和测试准确率。
技术规格
- 图像尺寸:所有图像为 224 X 224 X 3 的彩色 JPG 格式。
- 数据集结构:包括训练集、测试集和验证集,每个集合包含 525 个子目录,每个子目录对应一种鸟类。
数据集使用建议
- 数据生成器:推荐使用 Keras ImageDataGenerator.flow_from_directory 创建数据生成器。
- 辅助文件:数据集包括一个
bird.csv
文件,包含图像路径、标签、科学名称、数据集类型和类索引值。
数据收集与处理
- 图像来源:通过互联网搜索收集,下载后检查并删除重复或近似重复的图像。
- 图像处理:裁剪并调整图像尺寸,确保鸟类图像占据至少 50% 像素。
数据集局限性
- 图像大小建议:建议使用 150 X 150 X 3 的图像大小以减少训练时间。
- 文件编号:所有文件按物种编号,训练图像使用零填充以保持顺序。
- 数据集不平衡:训练集中每个物种的图像数量不同,但至少有 130 张图像。
- 性别偏差:约 80% 的图像为雄性,20% 为雌性,可能导致分类器在雌性图像上表现不佳。