データセットの概要
データセットには、合計 525 種の鳥、84,635 枚のトレーニング画像、2,625 枚のテスト画像、2,625 枚の検証画像が含まれています。
データのクリーニングと品質保証
- 重複排除とノイズ除去: 分析ツールを使用してデータセットをクリーンアップし、重複または重複に近い画像、欠陥のある情報量の少ない画像を削除します。
- データセットの分離: トレーニング、テスト、検証のデータセット間で情報漏洩がないことを確認します。
データセットの特性
- 画質: 画像は未処理で補正されておらず、各画像には 1 羽の鳥のみが含まれており、通常は少なくとも 50% ピクセルを占めています。
- 期待されるパフォーマンス: 中程度の複雑さのモデルは、約 90% のトレーニングとテストの精度を達成すると予想されます。
技術仕様
- 画像サイズ: すべての画像は 224 X 224 X 3 色の JPG 形式です。
- データセットの構造: トレーニング セット、テスト セット、検証セットを含む、各セットには 525 個のサブディレクトリが含まれており、各サブディレクトリは鳥の種類に対応します。
データセットの使用に関する推奨事項
- データジェネレーター: データ ジェネレーターを作成するには、Keras ImageDataGenerator.flow_from_directory を使用することをお勧めします。
- 補助文書: データセットには、
bird.csv
画像パス、ラベル、学名、データセット タイプ、クラス インデックス値を含むファイル。
データの収集と処理
- 画像ソース: インターネット検索を通じて収集され、ダウンロード後に重複または重複に近い画像をチェックして削除しました。
- 画像処理: 画像をトリミングしてサイズ変更し、鳥の画像が少なくとも 50% ピクセルを占めるようにします。
データセットの制限事項
- 画像サイズの推奨事項: トレーニング時間を短縮するために、150 X 150 X 3 の画像サイズを使用することをお勧めします。
- ファイル番号: すべてのファイルには種ごとに番号が付けられ、順序を維持するためにトレーニング画像にはゼロが埋め込まれます。
- データセットが不均衡である: トレーニング セット内の各種の画像の数は異なりますが、少なくとも 130 の画像があります。
- ジェンダーバイアス: 約 80% 画像は男性、20% は女性であるため、女性画像に対する分類器のパフォーマンスが低下する可能性があります。