HyperAI

VÖGEL 525 ARTEN 525 Vogelbilddatensatz

Datum

vor einem Jahr

Größe

1.96 GB

Organisation

Kaggle

Veröffentlichungs-URL

www.kaggle.com

特色图像

Datensatzübersicht

Der Datensatz enthält 525 Vogelarten, 84.635 Trainingsbilder, 2.625 Testbilder und 2.625 Validierungsbilder.

Datenbereinigung und Qualitätssicherung

  • Deduplizierung und Rauschunterdrückung: Verwenden Sie Analysetools, um den Datensatz zu bereinigen und doppelte oder nahezu doppelte Bilder sowie fehlerhafte und Bilder mit geringem Informationsgehalt zu entfernen.
  • Datensatzisolierung: Stellen Sie sicher, dass zwischen den Trainings-, Test- und Validierungsdatensätzen kein Informationsverlust auftritt.

Datensatzmerkmale

  • Bildqualität: Die Bilder sind original und unbearbeitet, mit nur einem Vogel in jedem Bild, der normalerweise mindestens 50%-Pixel einnimmt.
  • Erwartete Leistung: Bei Modellen mittlerer Komplexität wird eine Trainings- und Testgenauigkeit von etwa 90% erwartet.

Technische Daten

  • Bildgröße: Alle Bilder sind im JPG-Format 224 x 224 x 3 Farben.
  • Datensatzstruktur: Enthält Trainingssatz, Testsatz und Validierungssatz, jeder Satz enthält 525 Unterverzeichnisse, jedes Unterverzeichnis entspricht einer Vogelart.

Empfehlungen zur Verwendung des Datensatzes

  • Datengenerator: Es wird empfohlen, zum Erstellen des Datengenerators Keras ImageDataGenerator.flow_from_directory zu verwenden.
  • Unterstützende Dateien: Der Datensatz enthält eine bird.csv Datei mit Bildpfad, Bezeichnung, wissenschaftlichem Namen, Datensatztyp und Klassenindexwert.

Datenerhebung und -verarbeitung

  • Bildquelle: Durch Internetsuche gesammelt, doppelte oder nahezu doppelte Bilder nach dem Herunterladen geprüft und gelöscht.
  • Bildverarbeitung: Schneiden Sie das Bild zu und ändern Sie seine Größe, um sicherzustellen, dass das Vogelbild mindestens 50% Pixel umfasst.

Datensatzbeschränkungen

  • Empfehlungen zur Bildgröße: Es wird empfohlen, eine Bildgröße von 150 x 150 x 3 zu verwenden, um die Trainingszeit zu verkürzen.
  • Dokumentnummer: Alle Dateien sind nach Art nummeriert und Trainingsbilder werden mit Nullen aufgefüllt, um die Reihenfolge beizubehalten.
  • Unausgewogener Datensatz: Die Anzahl der Bilder jeder Art im Trainingssatz variiert, aber es gibt mindestens 130 Bilder.
  • Geschlechtsspezifische Voreingenommenheit: Etwa 80% der Bilder sind männlich und 20% sind weiblich, was dazu führen kann, dass der Klassifikator bei weiblichen Bildern eine schlechte Leistung erbringt.
BIRDS-525-SPECIES.torrent
Seeding 1Herunterladen 2Abgeschlossen 151Gesamtdownloads 328
  • BIRDS-525-SPECIES/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • birds.zip
          1.96 GB