HyperAI초신경

BioCLIP 분류 계층적 예측 데모

튜토리얼 소개

이 튜토리얼 데모는 주어진 생물학적 이미지를 과, 속, 종 등으로 분류할 수 있습니다. 이는 CVPR2024의 가장 좋은 학생 논문입니다.BioCLIP: 생명나무를 위한 비전 기반 모델"Gradio 버전 데모"

BioCLIP 연구 배경

일반적인 작업에 비해 생물학적 컴퓨터 비전의 레이블 공간은 더 풍부합니다. 분류 주석의 수가 엄청날 뿐만 아니라, 주석들은 계층적 분류 시스템에서 서로 연결되어 있습니다. 이는 의심할 여지 없이 높은 종 범위와 강력한 일반화 기능을 갖춘 기본 모델을 훈련하는 데 엄청난 어려움을 안겨줍니다.

수백 년간의 생물학 연구 경험을 바탕으로, 연구진은 기본 모델이 주석 공간의 구조를 성공적으로 인코딩할 수 있다면, 특정 종이 관찰되지 않았더라도 모델이 해당 속이나 과를 식별하고 이에 상응하는 표현을 제공할 수 있을 것이라고 믿습니다. 이러한 계층적 표현은 새로운 분류군에 대한 소수의 학습이나 심지어는 제로샷 학습을 달성하는 데 도움이 됩니다. 이를 바탕으로 연구진은 OpenAI가 개발한 다중 모달 모델 아키텍처인 CLIP을 선택하고, CLIP의 다중 모달 대조 학습 목표를 사용하여 TREEOFLIFE-10M에 대한 사전 학습을 계속했습니다.

효과 미리보기

실행 단계

1. 튜토리얼을 복제하고 시작한 후 API 주소를 직접 복사하여 임의의 URL에 붙여넣습니다(실명 인증이 완료되어야 하며, 이 단계에서는 작업 공간을 열 필요가 없습니다)

1

2. Gradio 인터페이스에 들어가서 식별할 이미지를 업로드합니다.

이 데모에서는 "오픈엔드"와 "제로샷"의 두 가지 모드를 제공합니다.

  • "개방형" 모드는 계, 문, 강, 목, 과, 속, 종의 7가지 분류 수준을 제공합니다. 사용자는 이미지를 업로드하고 분류할 수준을 선택하여 분류 작업을 수행할 수 있습니다. 분류 수준이 더 세밀할수록 분류하기가 더 어려워집니다.
  • "제로샷" 모드를 사용하면 사용자가 분류할 카테고리를 제공할 수 있습니다. 사진을 업로드한 후, 모델은 사진이 속한 카테고리를 제공할 수 있습니다.

개방형

분류하려는 수준을 선택하고 "제출" 버튼을 클릭하면 분류 결과가 생성됩니다.

제로샷

분류할 수 있는 여러 가지 범주를 입력하고 "제출" 버튼을 클릭하면 분류 결과가 생성됩니다.

토론 및 교류

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔 및 [튜토리얼 교환]에 댓글을 남겨 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

2