HyperAI

Ensemble De Données D'images Biologiques TreeOfLife-10M

Date

il y a un an

Organisation

Recherche Microsoft

URL de publication

imageomics.github.io

Aide au téléchargement
特色图像

Avec plus de 10 millions d'images couvrant 454 000 taxons dans l'Arbre de la Vie, TreeOfLife-10M est le plus grand ensemble de données d'images d'organismes biologiques compatibles ML et de leurs étiquettes de classification associées à ce jour. Il s'appuie sur les bases établies par les ensembles de données de haute qualité existants tels que iNat21 et BIOSCAN-1M, et intègre en outre de nouvelles images organisées de l'Encyclopédie de la vie (eol.org), qui fournissent une grande partie de la diversité des données de TreeOfLife-10M. Chaque image dans TreeOfLife-10M est étiquetée au niveau taxonomique le plus spécifique, ainsi qu'aux niveaux taxonomiques supérieurs dans l'Arbre de Vie (pour des exemples de niveaux taxonomiques et d'étiquettes, voirType de texte). TreeOfLife-10M est généré pour la formation BioCLIP et les futurs modèles basés sur la biologie.

L'ensemble de données peut être utilisé dans de nombreux domaines, notamment la recherche sur la biodiversité, l'identification des espèces, les tâches de traitement du langage naturel, l'apprentissage automatique et la recherche en vision par ordinateur.

Cet ensemble de données a été publié en 2024 par l'Ohio State University, Microsoft Research et d'autres institutions.BioCLIP : un modèle de fondation de vision pour l'arbre de vie" est le meilleur article du CVPR 2024.