Ein Schritt hin zu einer weltweiten Biodiversitätsbewertung: Der BIOSCAN-1M-Insekten-Datensatz

Um die Insektenbiodiversität zu katalogisieren, stellen wir einen neuen, großangelegten Datensatz handbeschrifteter Insektenbilder vor: den BIOSCAN-Insect-Datensatz. Jeder Datensatz ist durch einen Experten taxonomisch klassifiziert und enthält zudem genetische Informationen, darunter rohe Nukleotid-Barcodesequenzen und zugewiesene Barcode-Indexnummern, die als genetisch basierte Proxy-Indikatoren für die Artenzuschreibung dienen. In diesem Beitrag wird ein konservierter Datensatz mit einer Million Bildern vorgestellt, der hauptsächlich zur Schulung von Computer-Vision-Modellen dient, die eine bildbasierte taxonomische Einschätzung ermöglichen. Gleichzeitig weist der Datensatz jedoch auch bemerkenswerte Eigenschaften auf, die das Interesse der breiteren Community im Bereich des maschinellen Lernens wecken könnten. Aufgrund der biologischen Natur des Datensatzes zeigt sich eine charakteristische, langschwänzige Verteilung der Klassen, die durch starke Klassenungleichgewichte gekennzeichnet ist. Darüber hinaus basiert die taxonomische Beschriftung auf einem hierarchischen Klassifikationsschema, was an niedrigeren Ebenen ein äußerst feinkörniges Klassifikationsproblem darstellt. Neben der Förderung des Interesses an Biodiversitätsforschung innerhalb der Community des maschinellen Lernens trägt der Fortschritt bei der Entwicklung eines bildbasierten taxonomischen Klassifikators auch direkt zum endgültigen Ziel aller BIOSCAN-Forschung bei: der Schaffung einer umfassenden Grundlage für die globale Biodiversitätskartierung. In diesem Beitrag wird der Datensatz vorgestellt und die Klassifikationsaufgabe anhand der Implementierung und Analyse eines Baseline-Klassifikators untersucht.