BioCLIP 生物分类的层次预测 Demo

教程简介
该教程 Demo 可以对给定的生物图片按科、属、种等进行分类,是 CVPR2024 的 best student paper「BioCLIP: A Vision Foundation Model for the Tree of Life」的 Gradio 版本 Demo 。
BioCLIP 研究背景
与通用任务相比,生物学计算机视觉的标注空间 (label space) 更加丰富,不仅分类标注数量庞大,且标注在层级分类系统中相互连接,这无疑为训练高物种覆盖率、强泛化能力的基础模型带来了巨大挑战。
借助生物学数百年研究所积累的经验,研究人员认为,如果基础模型能够成功编码标注空间的结构,那么即便没有见过某个特定物种,模型就可能已经能够识别其所对应的属 (genus) 或科 (family) 并给出相应的表征,而这种层级表征 (hierarchical representation) 将有助于实现新分类群的少样本、甚至零样本学习。基于此,研究人员选择了 OpenAI 开发的多模态模型架构 CLIP,并利用 CLIP 的多模态对比学习目标在 TREEOFLIFE-10M 上持续进行预训练。
效果预览

运行步骤
1 、克隆教程并启动后,直接复制 API 地址在任意网址粘贴进入(需要已完成实名认证,此步无需打开工作空间)

2 、进入 Gradio 界面,即可上传待识别的图片
本 demo 提供了「open-ended」和「zero-shot」两种模式可供选择。
- 「open-ended」模式提供了界、门、纲、目、科、属、种这七个分类层级,用户可以上传图片并选择需要分类的层级来进行分类任务。需要分类的级别越精细,分类的难度也就越大。
- 「zero-shot」模式则可以又用户自主提供待分类的种类,上传图片后模型可以给出图片属于这些种类
Open-Ended
选择需要分类的级别,点击「submit」按钮即可生成分类结果。

Zero-Shot
输入几种可能的待分类类别,点击「submit」按钮即可生成分类结果

探讨交流
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓
