HyperAI

TreeOfLife-10M Biologischer Bilddatensatz

Datum

vor einem Jahr

Organisation

Microsoft Research

Veröffentlichungs-URL

imageomics.github.io

Download-Hilfe
特色图像

Mit über 10 Millionen Bildern, die 454.000 Taxa im Baum des Lebens abdecken, ist TreeOfLife-10M der bislang größte Datensatz mit ML-fähigen Bildern biologischer Organismen und den zugehörigen Klassifizierungsbezeichnungen. Es baut auf der Grundlage bestehender hochwertiger Datensätze wie iNat21 und BIOSCAN-1M auf und integriert darüber hinaus neue kuratierte Bilder aus der Encyclopedia of Life (eol.org), die einen Großteil der Datenvielfalt von TreeOfLife-10M bereitstellen. Jedes Bild in TreeOfLife-10M ist mit der spezifischsten taxonomischen Ebene sowie mit höheren taxonomischen Ebenen im Tree of Life beschriftet (Beispiele für taxonomische Ebenen und Beschriftungen finden Sie unterTexttyp). TreeOfLife-10M wird für das Training generiert BioCLIP und zukünftige biologisch basierte Modelle.

Der Datensatz kann in vielen Bereichen eingesetzt werden, darunter Biodiversitätsforschung, Artenidentifizierung, Aufgaben der natürlichen Sprachverarbeitung, maschinelles Lernen und Computer-Vision-Forschung.

Dieser Datensatz wurde 2024 von der Ohio State University, Microsoft Research und anderen Institutionen veröffentlicht.BioCLIP: Ein Vision Foundation-Modell für den Baum des Lebens" ist das beste Papier des CVPR 2024.