Tree of Life の 454,000 分類群をカバーする 1,000 万枚以上の画像を含む TreeOfLife-10M は、生物有機体画像とそれに関連する分類学的ラベルのこれまでで最大の ML 対応データセットです。 iNat21 や BIOSCAN-1M などの既存の高品質データセットによって確立された基盤を拡張し、TreeOfLife-10M Diversity のデータの大部分を提供する Encyclopedia of Life (eol.org) から厳選された新しい画像をさらに統合します。 TreeOfLife-10M の各画像には、最も具体的な分類レベルと、Tree of Life のより高い分類レベルがラベル付けされています (分類レベルとラベルの例については、を参照してください)。テキストタイプ)。 TreeOfLife-10M はトレーニング用に生成されます バイオクリップ そして将来の生物学に基づいたモデル。
このデータセットは、生物多様性研究、種の同定、自然言語処理タスク、機械学習、コンピューター ビジョン研究など、さまざまな分野で使用できます。
このデータセットは、オハイオ州立大学やマイクロソフト リサーチなどの機関によって 2024 年にリリースされ、論文調査「BioCLIP: Tree of Life のビジョン基盤モデル」はCVPR 2024の最優秀論文に選ばれました。