HyperAIHyperAI
il y a 15 jours

Une étape vers une évaluation mondiale de la biodiversité : le jeu de données BIOSCAN-1M sur les insectes

Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth
Une étape vers une évaluation mondiale de la biodiversité : le jeu de données BIOSCAN-1M sur les insectes
Résumé

Dans le cadre d’un effort visant à répertorier la biodiversité des insectes, nous proposons un nouveau grand jeu de données d’images d’insectes annotées manuellement, appelé BIOSCAN-Insect Dataset. Chaque enregistrement est classifié de manière taxonomique par un expert, et est associé à des informations génétiques, notamment des séquences brutes de barcodes nucléotidiques et des numéros d’index de barcodes attribués, qui servent de proxies fondés sur l’ADN pour la classification des espèces. Ce papier présente un jeu de données soigneusement sélectionné comprenant un million d’images, principalement destiné à entraîner des modèles de vision par ordinateur capables d’effectuer une évaluation taxonomique basée sur les images. Toutefois, ce jeu de données présente également des caractéristiques remarquables dont l’étude susciterait un intérêt significatif au sein de la communauté plus large du machine learning. En raison de sa nature biologique intrinsèque, le jeu de données présente une distribution fortement déséquilibrée au niveau des classes, caractérisée par une queue longue. Par ailleurs, l’étiquetage taxonomique suit un schéma de classification hiérarchique, ce qui donne lieu à un problème de classification très fine aux niveaux inférieurs. En sus de stimuler l’intérêt de la communauté du machine learning pour la recherche en biodiversité, les progrès réalisés dans la création d’un classificateur taxonomique basé sur les images contribueront également à atteindre l’objectif ultime de toutes les recherches BIOSCAN : poser les fondations d’une enquête exhaustive de la biodiversité mondiale. Ce papier présente le jeu de données et explore la tâche de classification à travers la mise en œuvre et l’analyse d’un classificateur de référence.

Une étape vers une évaluation mondiale de la biodiversité : le jeu de données BIOSCAN-1M sur les insectes | Articles de recherche récents | HyperAI