HyperAI超神经

TreeOfLife-200M 生物视觉数据集

日期

3 days ago

机构

发布地址

huggingface.co

下载帮助

TreeOfLife – 200M 是由美国俄亥俄州立大学于 2025 年发布的大规模生物视觉数据集,相关论文成果为:「BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning」,旨在训练生物基础模型。该数据集是目前用于生物学计算机视觉模型的、规模最大且最多样化的公共机器学习就绪数据集。

该数据集包含近 2.14 亿张图像,覆盖 95.2 万个物种类别,整合了来自 4 个核心生物多样性数据提供商的图像和元数据:全球生物多样性信息设施(GBIF)、生命百科全书(EOL)、 BIOSCAN – 5M 和 FathomNet 。该数据集还通过充分涵盖博物馆标本、相机陷阱和公民科学图像,增加了图像上下文的多样性。

数据集示例