TreeOfLife-10M 拥有超过 1,000 万张图像,涵盖生命之树中的 45.4 万个分类单元,是迄今为止最大的 ML 就绪生物有机体图像及其相关分类标签的数据集。它扩展了现有高质量数据集(如 iNat21 和 BIOSCAN-1M)建立的基础,进一步整合了来自生命百科全书 (eol.org) 的新精选图像,这些图像提供了 TreeOfLife-10M 的大部分数据多样性。 TreeOfLife-10M 中的每张图像都标记为最具体的分类级别,以及生命之树中更高的分类等级(有关分类等级和标签的示例,请参阅文本类型)。 TreeOfLife-10M 的生成目的是训练 BioCLIP 和未来的生物学基础模型。
该数据集可以用于多个领域,包括生物多样性研究、物种识别、自然语言处理任务、机器学习和计算机视觉研究。
该数据集于 2024 年由俄亥俄州立大学和微软研究院等机构发布,论文研究「BioCLIP: A Vision Foundation Model for the Tree of Life」为 CVPR 2024 的最佳论文。